Artigos de pesquisa em IA selecionados diariamente com traduções
Os sistemas de memória são componentes fundamentais que permitem que sistemas de IA, como LLMs e agentes de IA, alcancem aprendizado de longo prazo e interação sustentada. No entanto, durante o armazenamento e recuperação de memória, esses sistemas frequentemente exibem alucinações de memória, incluindo fabricação, erros, conflitos e omissões. As avaliações existentes de alucinações de memória são principalmente de questionamento e resposta de ponta a ponta, o que dificulta a localização do estágio operacional dentro do sistema de memória onde as alucinações surgem. Para resolver isso, apresentamos o *Hallucination in Memory Benchmark* (HaluMem), o primeiro benchmark de avaliação de alucinações em nível operacional adaptado a sistemas de memória. O HaluMem define três tarefas de avaliação (extração de memória, atualização de memória e questionamento e resposta baseado em memória) para revelar abrangentemente os comportamentos de alucinação em diferentes estágios operacionais da interação. Para suportar a avaliação, construímos conjuntos de dados de interação humano-IA multicentrada e centrada no usuário, HaluMem-Medium e HaluMem-Long. Ambos incluem cerca de 15k pontos de memória e 3,5k perguntas de múltiplos tipos. O comprimento médio do diálogo por usuário atinge 1,5k e 2,6k turnos, com comprimentos de contexto excedendo 1 milhão de tokens, permitindo a avaliação de alucinações em diferentes escalas de contexto e complexidades de tarefa. Estudos empíricos baseados no HaluMem mostram que os sistemas de memória existentes tendem a gerar e acumular alucinações durante os estágios de extração e atualização, que subsequentemente propagam erros para o estágio de questionamento e resposta. Pesquisas futuras devem focar no desenvolvimento de mecanismos de operação de memória interpretáveis e restritos que suprimam sistematicamente as alucinações e melhorem a confiabilidade da memória.
Avanços recentes em agentes de pesquisa profunda têm demonstrado potencial para a construção autônoma de conhecimento por meio de raciocínio dinâmico sobre fontes externas. No entanto, as abordagens existentes dependem de um paradigma monocontextual que acumula todas as informações em uma única janela de contexto em expansão, levando à sufocação contextual e contaminação por ruído que limitam sua eficácia em tarefas de longo horizonte. Apresentamos o IterResearch, um novo paradigma iterativo de pesquisa profunda que reformula a investigação de longo horizonte como um Processo de Decisão Markoviano com reconstrução estratégica do espaço de trabalho. Ao manter um relatório em evolução como memória e sintetizar insights periodicamente, nossa abordagem preserva a capacidade de raciocínio consistente em quaisquer profundidades de exploração. Desenvolvemos ainda a Otimização de Políticas com Consciência de Eficiência (EAPO), uma estrutura de aprendizado por reforço que incentiva a exploração eficiente por meio de desconto geométrico de recompensa e permite treinamento distribuído estável via subamostragem adaptativa. Experimentos extensivos demonstram que o IterResearch alcança melhorias substanciais sobre agentes de código aberto existentes, com média de +14,5 pp em seis benchmarks e reduz a lacuna com sistemas proprietários de fronteira. Notavelmente, nosso paradigma exibe escala de interação sem precedentes, estendendo-se a 2048 interações com ganhos dramáticos de desempenho (de 3,5% para 42,5%), e serve como uma estratégia eficaz de *prompting*, melhorando modelos de fronteira em até 19,2 pp sobre o ReAct em tarefas de longo horizonte. Esses resultados posicionam o IterResearch como uma solução versátil para raciocínio de longo horizonte, eficaz tanto como um agente treinado quanto como um paradigma de *prompting* para modelos de fronteira.
Os modelos recentes que priorizam o raciocínio (por exemplo, OpenAI o1, DeepSeek R1) estimularam um renovado interesse no RLVR (Reinforcement Learning from Verifiable Feedback). No entanto, os avanços são dominados pela matemática (por exemplo, AIME), com a geração de código para programação competitiva pouco explorada e a curadoria de dados recebendo menos atenção do que o projeto de algoritmos de RL. Investigamos como construir conjuntos de dados para RLVR (ou seja, *prompts* de RL) e apresentamos técnicas práticas de treinamento que proporcionam um forte desempenho na geração de código para programação competitiva. Nosso *pipeline* começa com o ajuste fino supervisionado (SFT) destilado de modelos *open-source* robustos, aumentado com dados de uso geral e intensivos em raciocínio. O RL segue então um processo de dois estágios com recompensas acionáveis baseadas em casos de teste: primeiro, o treinamento em um grande conjunto de problemas de programação competitiva distribuídos uniformemente, usando Otimização de Política Relativa de Grupo (GRPO) com 8 *rollouts* por *prompt* e uma janela de geração de resposta relativamente curta (por exemplo, 32k durante o SFT e 24k nesta fase) para expandir a entropia e mitigar repetição e truncamento; segundo, realizamos o Pré-GRPO: atualização em um pequeno conjunto de alta qualidade de problemas desafiadores com um grande orçamento de *rollouts* (64 *rollouts* por *prompt*) sob um currículo de foco rígido que retém continuamente as instâncias mais difíceis durante todo o treinamento. Implementamos nosso método no Qwen2.5-32B e avaliamos em competições semanais do LeetCode e Codeforces para evitar vazamento de dados. O modelo resultante atinge um desempenho de ponta entre modelos de escala similar e é comparável a sistemas líderes como DeepSeek v3.1 e Doubao-1.5-Thinking. Também examinamos tendências de escalonamento e observamos um forte escalonamento de RL em um modelo interno de grande escala MoE (Mixture of Experts). Nosso estudo destila práticas concisas e recomendadas para curadoria de dados, expansão de entropia e design de currículo em RLVR para geração de código em programação competitiva.
Apresentamos a STATION, um ambiente multiagente de mundo aberto que modela um ecossistema científico em miniatura. Aproveitando suas janelas de contexto estendidas, os agentes na Station podem se envolver em longas jornadas científicas que incluem ler artigos de colegas, formular hipóteses, submeter código, realizar análises e publicar resultados. É importante destacar que não há um sistema centralizado coordenando suas atividades - os agentes são livres para escolher suas próprias ações e desenvolver suas próprias narrativas dentro da Station. Experimentos demonstram que os agentes de IA na Station alcançam um novo desempenho de ponta em uma ampla gama de benchmarks, desde matemática até biologia computacional e aprendizado de máquina, superando notavelmente o AlphaEvolve no problema de empacotamento de círculos. Um rico mosaico de narrativas emerge à medida que os agentes perseguem pesquisas independentes, interagem com seus pares e constroem sobre uma história cumulativa. A partir dessas narrativas emergentes, novos métodos surgem organicamente, como um novo algoritmo de densidade adaptativa para integração de lotes de scRNA-seq. A Station representa um primeiro passo em direção à descoberta científica autônoma impulsionada por comportamentos emergentes em um ambiente de mundo aberto, representando um novo paradigma que vai além da otimização rígida.
Apresentamos o PhysWorld, uma estrutura que permite o aprendizado de robôs por meio da geração de vídeos baseada na modelagem do mundo físico. Modelos recentes de geração de vídeo podem sintetizar demonstrações visuais fotorrealistas a partir de comandos de linguagem e imagens, oferecendo uma fonte de sinais de treinamento poderosa, porém pouco explorada, para a robótica. No entanto, redirecionar diretamente os movimentos de pixels de vídeos gerados para robôs ignora a física, frequentemente resultando em manipulações imprecisas. O PhysWorld aborda essa limitação ao acoplar a geração de vídeo com a reconstrução do mundo físico. Dada uma única imagem e um comando de tarefa, nosso método gera vídeos condicionados pela tarefa e reconstrói o mundo físico subjacente a partir dos vídeos; os movimentos gerados no vídeo são fundamentados em ações fisicamente precisas por meio de aprendizado por reforço residual centrado em objetos, utilizando o modelo de mundo físico. Essa sinergia transforma orientações visuais implícitas em trajetórias robóticas fisicamente executáveis, eliminando a necessidade de coleta de dados de robôs reais e permitindo a manipulação robótica generalizável de modo *zero-shot*. Experimentos em diversas tarefas do mundo real demonstram que o PhysWorld melhora substancialmente a precisão da manipulação em comparação com abordagens anteriores. Visite https://pointscoder.github.io/PhysWorld_Web/{a página do projeto} para detalhes.
Os modelos de texto-para-imagem evoluíram rapidamente de ferramentas criativas casuais para sistemas de nível profissional, alcançando níveis sem precedentes de qualidade de imagem e realismo. No entanto, a maioria dos modelos é treinada para mapear instruções curtas em imagens detalhadas, criando uma lacuna entre a entrada textual esparsa e as saídas visuais ricas. Essa incompatibilidade reduz a controlabilidade, pois os modelos frequentemente preenchem detalhes ausentes de forma arbitrária, tendendo para as preferências médias dos usuários e limitando a precisão para uso profissional. Nós abordamos esta limitação treinando o primeiro modelo de código aberto de texto-para-imagem com legendas estruturadas longas, onde cada amostra de treinamento é anotada com o mesmo conjunto de atributos refinados. Este projeto maximiza a cobertura expressiva e permite controle desacoplado sobre fatores visuais. Para processar legendas longas com eficiência, propomos o DimFusion, um mecanismo de fusão que integra *tokens* intermediários de um LLM leve sem aumentar o comprimento dos *tokens*. Também introduzimos o protocolo de avaliação Reconstrução com Texto como Gargalo (TaBR). Ao avaliar o quão bem imagens reais podem ser reconstruídas através de um ciclo de legendagem-geração, o TaBR mede diretamente a controlabilidade e a expressividade, mesmo para legendas muito longas onde os métodos de avaliação existentes falham. Por fim, demonstramos nossas contribuições treinando o modelo de larga escala FIBO, alcançando o estado da arte no alinhamento a instruções entre modelos de código aberto. Os pesos do modelo estão publicamente disponíveis em https://huggingface.co/briaai/FIBO.
As Misturas Esparsas de Especialistas (MoE) têm sido amplamente adotadas em modelos de linguagem grandes recentes, uma vez que permitem escalar eficientemente a capacidade do modelo sem aumentar o custo de inferência. No entanto, avaliações em diversas tarefas de *downstream* revelam uma subotimalidade consistente dos roteadores nos MoE LLMs existentes, o que resulta numa lacuna de desempenho significativa (por exemplo, 10-20% em precisão) em relação ao roteamento ótimo. Neste artigo, demonstramos que alinhar a variedade (*manifold*) dos pesos de roteamento com a variedade da incorporação (*embedding*) de tarefas pode efetivamente reduzir essa lacuna e melhorar o desempenho de generalização dos MoE LLMs. O nosso método, "Alinhamento da Variedade de Roteamento (RoMA)", introduz um termo de regularização de variedade adicional no objetivo de pós-treinamento e requer apenas um ajuste fino (*finetuning*) leve dos roteadores (com os outros parâmetros congelados). Especificamente, a regularização incentiva que os pesos de roteamento de cada amostra se aproximem dos dos seus vizinhos bem-sucedidos (cujos pesos de roteamento conduzem a respostas corretas) num espaço de incorporação de tarefas. Consequentemente, amostras que visam tarefas semelhantes partilharão escolhas de especialistas semelhantes ao longo das camadas. Construir tais ligações entre tarefas e especialistas em diferentes amostras é essencial para alcançar uma melhor generalização. Além disso, o RoMA demonstra a vantagem de unificar a compreensão da tarefa (através de modelos de incorporação) com a geração de soluções (através dos MoE LLMs). Nas experiências, ajustamos os roteadores no OLMoE, DeepSeekMoE e Qwen3-MoE usando o RoMA. Avaliações em diversos *benchmarks* e comparações extensivas com linhas de base (*baselines*) mostram a melhoria substancial trazida pelo RoMA.
Como um meio fundamental para a interação humana e troca de informações, os serviços de redes sociais (SRS) apresentam desafios únicos para os grandes modelos de linguagem (LLMs): cargas de trabalho heterogéneas, normas e gírias em rápida mudança, e corpora multilingues e culturalmente diversos que induzem uma mudança brusca de distribuição. O ajuste fino supervisionado (SFT) pode especializar modelos, mas frequentemente desencadeia um "sobe-e-desce" entre ganhos dentro da distribuição e robustez fora dela, especialmente para modelos menores. Para enfrentar estes desafios, apresentamos o RedOne 2.0, um LLM orientado para SRS treinado com um paradigma pós-treinamento progressivo e priorizado por aprendizagem por reforço (RL), concebido para uma adaptação rápida e estável. O *pipeline* consiste em três etapas: (1) Aprendizagem Exploratória em corpora de SRS curados para estabelecer um alinhamento inicial e identificar fraquezas sistemáticas; (2) Ajuste Fino Direcionado que aplica seletivamente o SFT às lacunas diagnosticadas, misturando uma pequena fração de dados gerais para mitigar o esquecimento; e (3) Aprendizagem de Refinamento que reaplica o RL com sinais centrados em SRS para consolidar melhorias e harmonizar compromissos entre tarefas. Em várias tarefas abrangendo três categorias, o nosso modelo de escala 4B proporciona melhorias médias de cerca de 2,41 pontos em relação à linha de base subótima de 7B. Adicionalmente, o RedOne 2.0 alcança um aumento médio de desempenho de cerca de 8,74 pontos em relação ao modelo base, utilizando menos de metade dos dados necessários pelo método centrado em SFT RedOne, evidenciando uma eficiência e estabilidade de dados superiores em escalas compactas. Globalmente, o RedOne 2.0 estabelece uma linha de base competitiva e económica para LLMs específicos de domínio no cenário das SRS, avançando a capacidade sem sacrificar a robustez.
A resolução de tarefas complexas geralmente exige que os LLMs gerem longas cadeias de raciocínio de múltiplos passos. Trabalhos anteriores demonstraram que verificar a correção de passos individuais de raciocínio pode melhorar ainda mais o desempenho e a eficiência dos LLMs nessas tarefas e aumentar a interpretabilidade da solução. No entanto, as abordagens de verificação existentes, como os Modelos de Recompensa de Processo (PRMs), são computacionalmente dispendiosas, limitadas a domínios específicos ou exigem anotações em grande escala geradas por humanos ou modelos. Assim, propomos uma alternativa leve para verificação de raciocínio a nível de passo baseada em escores de incerteza orientados por dados. Treinamos cabeças de quantificação de incerteza (UHeads) baseadas em transformers que utilizam os estados internos de um LLM congelado para estimar a incerteza dos seus passos de raciocínio durante a geração. A abordagem é totalmente automática: as etiquetas-alvo são geradas por outro LLM maior (por exemplo, DeepSeek R1) ou de forma auto supervisionada pelo próprio modelo original. As UHeads são eficazes e leves, contendo menos de 10 milhões de parâmetros. Em múltiplos domínios, incluindo matemática, planeamento e resposta a questões de conhecimento geral, elas igualam ou até superam o desempenho de PRMs que são até 810 vezes maiores. As nossas descobertas sugerem que os estados internos dos LLMs codificam a sua incerteza e podem servir como sinais confiáveis para verificação de raciocínio, oferecendo uma direção promissora para LLMs introspetivos escaláveis e generalizáveis.
Avanços recentes em modelos de linguagem com recorrência em profundidade demonstram que a recorrência pode dissociar o cálculo computacional durante o treinamento e a contagem de parâmetros do cálculo computacional durante o teste. Neste trabalho, estudamos como converter modelos de linguagem pré-treinados não recorrentes existentes em modelos com recorrência em profundidade. Descobrimos que o uso de um currículo de recorrências para aumentar a profundidade efetiva do modelo ao longo do treinamento preserva o desempenho, reduzindo ao mesmo tempo o custo computacional total. Em nossos experimentos, em matemática, observamos que converter modelos pré-treinados em modelos recorrentes resulta em melhor desempenho para um determinado orçamento computacional do que simplesmente realizar pós-treinamento no modelo de linguagem não recorrente original.
O paradigma de pensamento suave (soft-thinking) para raciocínio em Modelos de Linguagem de Grande Porte (LLMs) pode superar o raciocínio convencional de cadeia de pensamento (Chain-of-Thought - CoT) com tokens discretos em alguns cenários, destacando seu valor para pesquisa e aplicação. No entanto, embora o padrão de raciocínio CoT com tokens discretos possa ser reforçado através de algoritmos de otimização de políticas, como a otimização de políticas relativas de grupo (group relative policy optimization - GRPO), estender o padrão de pensamento suave com Aprendizado por Reforço (RL) permanece um desafio. Essa dificuldade decorre das complexidades de injetar estocasticidade nos tokens de pensamento suave e atualizar as políticas de pensamento suave de acordo. Como resultado, tentativas anteriores de combinar pensamento suave com GRPO normalmente apresentam desempenho inferior às suas contrapartes GRPO com tokens discretos. Para liberar todo o potencial do pensamento suave, este artigo apresenta um novo algoritmo de otimização de políticas, o SofT-GRPO, para reforçar LLMs sob o padrão de raciocínio de pensamento suave. O SofT-GRPO injeta ruído Gumbel nos *logits*, emprega a técnica Gumbel-Softmax para evitar que tokens de pensamento suave fiquem fora do espaço de incorporação pré-treinado e aproveita o truque de reparametrização no gradiente de política. Realizamos experimentos com LLMs base variando de 1,5B a 7B de parâmetros, e os resultados demonstram que o SofT-GRPO permite que LLMs de pensamento suave superem ligeiramente o GRPO com tokens discretos em Pass@1 (+0,13% na precisão média), enquanto exibe um aumento substancial em Pass@32 (+2,19% na precisão média). Códigos e pesos estão disponíveis em https://github.com/zz1358m/SofT-GRPO-master.
O advento dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) expandiu as capacidades da IA para modalidades visuais, no entanto, os benchmarks de avaliação existentes permanecem limitados à compreensão de vídeo único, negligenciando a necessidade crítica de compreensão multi-vídeo em cenários do mundo real (por exemplo, análise esportiva e condução autónoma). Para colmatar esta lacuna significativa, introduzimos o MVU-Eval, o primeiro benchmark abrangente para avaliar a Compreensão Multi-Vídeo em MLLMs. Especificamente, o nosso MVU-Eval avalia principalmente oito competências centrais através de 1.824 pares pergunta-resposta meticulosamente curados, abrangendo 4.959 vídeos de diversos domínios, abordando tanto tarefas de perceção fundamentais como tarefas de raciocínio de alta ordem. Estas capacidades estão rigorosamente alinhadas com aplicações do mundo real, como a síntese multi-sensor em sistemas autónomos e a análise esportiva de múltiplos ângulos. Através de uma avaliação extensiva de modelos *open-source* e *closed-source* state-of-the-art, revelamos discrepâncias de desempenho significativas e limitações na capacidade dos MLLMs atuais para realizar compreensão através de múltiplos vídeos. O benchmark será disponibilizado publicamente para fomentar pesquisas futuras.
Apresentamos o Aprendizado por Reforço (RL) com Ambientes Verificáveis Adaptativos (RLVE), uma abordagem que utiliza ambientes verificáveis que geram problemas de forma procedural e fornecem recompensas algoritmicamente verificáveis, para escalar o RL para modelos de linguagem (LMs). O RLVE permite que cada ambiente verificável adapte dinamicamente a distribuição de dificuldade dos problemas às capacidades do modelo de política conforme o treinamento avança. Em contraste, distribuições de dados estáticas frequentemente levam ao desaparecimento do sinal de aprendizado quando os problemas são muito fáceis ou muito difíceis para a política. Para implementar o RLVE, criamos o RLVE-Gym, um conjunto em larga escala de 400 ambientes verificáveis, cuidadosamente desenvolvido por meio de engenharia manual de ambientes. Usando o RLVE-Gym, mostramos que a escalabilidade de ambientes, ou seja, a expansão do conjunto de ambientes de treinamento, melhora consistentemente as capacidades de raciocínio generalizáveis. O RLVE com treinamento conjunto em todos os 400 ambientes do RLVE-Gym produz uma melhoria média absoluta de 3,37% em seis benchmarks de raciocínio, partindo de um dos LMs de raciocínio de 1,5B mais robustos. Em comparação, continuar o treinamento de RL original deste LM resulta em um ganho médio absoluto de apenas 0,49%, apesar de usar mais de 3 vezes mais poder computacional. Disponibilizamos nosso código publicamente.
Os agentes autónomos impulsionados por Modelos de Linguagem de Grande Escala (LLMs) revolucionaram o raciocínio e a resolução de problemas, mas permanecem estáticos após o treino, incapazes de evoluir com a experiência, tal como os seres inteligentes fazem durante a sua operação. Apresentamos a Aprendizagem Progressiva com EXperiência (FLEX), um paradigma de aprendizagem sem gradientes que permite aos agentes baseados em LLMs evoluir continuamente através da experiência acumulada. Especificamente, a FLEX cultiva uma evolução escalável e herdável através da construção de uma biblioteca de experiências estruturada, baseada na reflexão contínua sobre sucessos e falhas durante a interação com o ambiente. A FLEX produz melhorias substanciais em raciocínio matemático, retrossíntese química e previsão de aptidão proteica (até 23% no AIME25, 10% no USPTO50k e 14% no ProteinGym). Identificamos ainda uma lei de escala clara do crescimento experiencial e o fenómeno de herança de experiência entre agentes, representando um passo em direção a uma evolução contínua de agentes escalável e herdável. Página do Projeto: https://flex-gensi-thuair.github.io.
Apresentamos o llama-embed-nemotron-8b, um modelo de incorporação de texto de pesos abertos que atinge desempenho de última geração no *leaderboard* do *Multilingual Massive Text Embedding Benchmark* (MMTEB) em 21 de outubro de 2025. Embora modelos recentes apresentem desempenho sólido, seus dados ou metodologias de treinamento frequentemente não são totalmente divulgados. Nosso objetivo é abordar essa lacuna desenvolvendo um modelo totalmente de código aberto, disponibilizando publicamente seus pesos e estudos de ablação detalhados, e planejando compartilhar os conjuntos de dados de treinamento curados. Nosso modelo demonstra desempenho superior em todas as principais tarefas de incorporação — incluindo recuperação, classificação e similaridade semântica textual (STS) — e se destaca em cenários multilíngues desafiadores, como idiomas de baixos recursos e configurações cruzadas. Esse desempenho de ponta é impulsionado por uma nova mistura de dados de 16,1 milhões de pares de consulta-documento, divididos entre 7,7 milhões de amostras de conjuntos de dados públicos e 8,4 milhões de exemplos gerados sinteticamente a partir de vários LLMs de pesos abertos. Uma de nossas principais contribuições é um estudo de ablação detalhado que analisa escolhas de design fundamentais, incluindo uma comparação de implementações de perda contrastiva, uma avaliação de estratégias de geração sintética de dados (SDG) e o impacto da fusão de modelos. O llama-embed-nemotron-8b é um modelo consciente de instruções, suportando instruções definidas pelo usuário para melhorar o desempenho em casos de uso específicos. Esta combinação de desempenho de primeira linha, ampla aplicabilidade e flexibilidade orientada ao usuário permite que ele sirva como uma solução universal de incorporação de texto.
A geração de modelos 3D de CAD editáveis a partir de linguagem natural continua a ser um desafio, uma vez que os sistemas texto-para-CAD existentes produzem malhas (meshes) ou dependem de escassos dados de histórico de projeto. Apresentamos o NURBGen, o primeiro framework para gerar modelos 3D de CAD de alta fidelidade diretamente a partir de texto, utilizando B-Splines Racionais Não Uniformes (NURBS). Para alcançar este objetivo, fine-tunamos um Large Language Model (LLM) para traduzir textos de forma livre em representações JSON que contêm parâmetros de superfície NURBS (ou seja, pontos de controlo, vetores de nós, graus e pesos racionais), os quais podem ser convertidos diretamente para o formato BRep usando Python. Propomos ainda uma representação híbrida que combina NURBS não aparadas com primitivas analíticas para lidar de forma mais robusta com superfícies aparadas e regiões degeneradas, ao mesmo tempo que reduz a complexidade de tokens. Adicionalmente, introduzimos o partABC, um subconjunto curado do conjunto de dados ABC composto por componentes individuais de CAD, anotados com legendas detalhadas através de um pipeline de anotação automatizado. O NURBGen demonstra um forte desempenho em prompts diversos, superando métodos anteriores em fidelidade geométrica e precisão dimensional, conforme confirmado por avaliações de especialistas. O código e o conjunto de dados serão disponibilizados publicamente.
O aprendizado por reforço (RL) é frequentemente creditado por melhorar o raciocínio e a generalização de modelos de linguagem à custa da degradação do conhecimento memorizado. Desafiamos esta narrativa ao observar que os modelos aprimorados por RL superam consistentemente suas contrapartes base e ajustadas por supervisão (SFT) em tarefas puras de recordação de conhecimento, particularmente naquelas que exigem o percurso de conhecimento estruturado e hierárquico (por exemplo, códigos médicos). Nossa hipótese é que esses ganhos não derivam de dados recém-adquiridos, mas de habilidades processuais aprimoradas para navegar e pesquisar as hierarquias de conhecimento existentes nos parâmetros do modelo. Para apoiar esta hipótese, mostramos que o *prompting* estruturado, que guia explicitamente os modelos SFT através do percurso hierárquico, recupera a maior parte da diferença de desempenho (reduzindo de 24pp para 7pp no MedConceptsQA para DeepSeek-V3/R1). Adicionalmente, descobrimos que, embora o *prompting* melhore a precisão da resposta final, os modelos aprimorados por RL mantêm uma capacidade superior de recordar os caminhos processuais corretos em tarefas de recuperação profunda. Por fim, nossa análise das ativações internas por camadas revela que, embora as representações factuais (por exemplo, as ativações para a afirmação "o código 57.95 refere-se a infecção urinária") mantenham alta similaridade de cosseno entre os modelos SFT e RL, as representações de consulta (por exemplo, "o que é o código 57.95") divergem notavelmente, indicando que o RL transforma principalmente a forma como os modelos percorrem o conhecimento, e não a representação do conhecimento em si.
A compreensão de anomalias em vídeo (VAU) visa fornecer uma interpretação detalhada e compreensão semântica de eventos anômalos em vídeos, superando as limitações dos métodos tradicionais que se concentram apenas na detecção e localização de anomalias. No entanto, as abordagens existentes frequentemente negligenciam as relações causais mais profundas e as interações entre objetos, que são críticas para a compreensão de comportamentos anômalos. Neste artigo, propomos o VADER, uma estrutura orientada por LLM para a compreensão de anomalias em vídeo, que integra características de relação entre objetos em *keyframes* com pistas visuais para aprimorar a compreensão de anomalias a partir do vídeo. Especificamente, o VADER aplica primeiro um Avaliador de Anomalias para atribuir pontuações de anomalia por quadro, seguido por uma estratégia de Amostragem Consciente do Contexto (CAES) para capturar o contexto causal de cada evento anômalo. Um Extrator de Características de Relação e um Codificador de Relações por Contraste (CORE) modelam conjuntamente as interações dinâmicas entre objetos, produzindo representações relacionais compactas para o raciocínio subsequente. Essas pistas visuais e relacionais são integradas com LLMs para gerar descrições detalhadas e fundamentadas causalmente, e suportar uma resposta robusta a perguntas relacionadas a anomalias. Experimentos em múltiplos benchmarks de VAU do mundo real demonstram que o VADER alcança resultados sólidos em tarefas de descrição, explicação e raciocínio causal sobre anomalias, avançando a fronteira da análise explicável de anomalias em vídeo.
Embora o Aprendizado por Reforço para Recompensas Verificáveis (RLVR) seja uma ferramenta poderosa para treinar grandes modelos de raciocínio, sua dinâmica de treinamento abriga um desafio crítico: o *overfitting* de RL, em que os modelos maximizam as recompensas de treino mas perdem generalização. Nossa análise revela que este fenómeno é impulsionado pela superespecialização da política e pelo esquecimento catastrófico das diversas soluções geradas durante o treinamento. A otimização padrão descarta esta valiosa diversidade de políticas entre etapas. Para resolver isto, introduzimos o RLoop, um quadro de autoaprimoramento baseado na inicialização iterativa de políticas. O RLoop transforma o processo de treinamento padrão num ciclo virtuoso: primeiro usa RL para explorar o espaço de soluções a partir de uma política dada, depois filtra as trajetórias bem-sucedidas para criar um conjunto de dados especializado. Este conjunto de dados é utilizado via *Rejection-sampling Fine-Tuning* (RFT) para refinar a política inicial, criando um ponto de partida superior para a próxima iteração. Este ciclo de exploração e exploração via reinicialização iterativa converte eficazmente as variações transitórias da política em ganhos robustos de desempenho. Nossos experimentos mostram que o RLoop mitiga o esquecimento e melhora substancialmente a generalização, aumentando a precisão média em 9% e a métrica *pass@32* em mais de 15% em comparação com o RL padrão.
Os recentes avanços no raciocínio multimodal têm sido impulsionados em grande parte por conjuntos de dados não divulgados e receitas proprietárias de síntese de dados, deixando em aberto questões sobre como construir sistematicamente conjuntos de dados de raciocínio em larga escala e centrados na visão, particularmente para tarefas que vão além da matemática visual. Neste trabalho, introduzimos um novo quadro de geração de dados de raciocínio que abrange competências e níveis de complexidade diversos, com mais de 1 milhão de perguntas sintéticas de alta qualidade e centradas na visão. O conjunto de dados também inclui dados de preferência e instruções que suportam tanto RL offline quanto online. Nosso quadro de síntese prossegue em duas etapas: (1) escala; e (2) complexidade. Os traços de raciocínio são então sintetizados através de um processo em duas fases que aproveita VLMs e LLMs de raciocínio, produzindo traços CoT para VLMs que capturam a riqueza e os diversos comportamentos cognitivos encontrados nos modelos de raciocínio de fronteira. Notavelmente, mostramos que o ajuste fino do Qwen2.5-VL-7B com os nossos dados supera todas as linhas de base de dados abertos em todos os benchmarks centrados na visão avaliados, e até ultrapassa modelos fortes de dados fechados, como o MiMo-VL-7B-RL, no V* Bench, CV-Bench e MMStar-V. Talvez o mais surpreendente seja que, apesar de ser inteiramente centrado na visão, os nossos dados transferem-se positivamente para o raciocínio apenas textual (MMLU-Pro) e para o raciocínio auditivo (MMAU), demonstrando a sua eficácia. De forma semelhante, apesar de não conter vídeos ou dados visuais corporificados, observamos ganhos notáveis ao avaliar num benchmark de Q&A corporificado de evidência única (NiEH). Finalmente, usamos os nossos dados para analisar todo o pipeline de pós-treinamento de VLM. A nossa análise empírica destaca que (i) o SFT em dados de alta qualidade com traços de raciocínio não lineares é essencial para um RL online eficaz, (ii) o RL offline faseado iguala o desempenho do RL online enquanto reduz as exigências computacionais, e (iii) um SFT cuidadoso em dados de alta qualidade pode melhorar substancialmente a transferência fora de domínio e entre modalidades.
O rápido avanço dos grandes modelos de linguagem (LLMs) tem impulsionado inúmeras aplicações, mas a inferência eficiente em lote único permanece vital para a inteligência em dispositivos locais. Embora os FPGAs ofereçam controle de dados de granularidade fina e alta eficiência energética, as otimizações recentes em GPUs reduziram sua vantagem, especialmente sob computação baseada em operações aritméticas. Para superar isso, aproveitamos a abundante memória on-chip dos FPGAs para deslocar a inferência de LLMs da computação aritmética para uma baseada em memória, por meio de consultas a tabelas (lookups). Apresentamos o LUT-LLM, o primeiro acelerador para FPGA que permite a inferência de LLMs com 1B+ de parâmetros através de operações de memória com quantização vetorial. Nossa análise identifica a co-quantização ativação-peso como o esquema mais eficaz, suportado por (1) busca paralela de centróides com consciência de largura de banda, (2) consultas eficientes a tabelas 2D e (3) um projeto híbrido espaço-temporal que minimiza o cache de dados. Implementado em um FPGA AMD V80 para um modelo personalizado Qwen 3 1.7B, o LUT-LLM atinge uma latência 1,66x menor que a AMD MI210 e uma eficiência energética 1,72x maior que a NVIDIA A100, escalando para modelos de 32B com um ganho de eficiência de 2,16x em relação ao A100.
Os modelos de difusão texto-imagem produzem imagens de alta qualidade, mas o alinhamento com as preferências humanas continua a ser um desafio. Revisitamos a Otimização Direta de Preferências (DPO) baseada em difusão para estes modelos e identificamos uma patologia crítica: o aumento da margem de preferência não melhora necessariamente a qualidade da geração. Especificamente, o objetivo padrão do Diffusion-DPO pode aumentar o erro de reconstrução tanto dos ramos vencedores como dos perdedores. Consequentemente, a degradação das saídas menos preferidas pode tornar-se suficientemente severa para afetar adversamente o ramo preferido, mesmo com o crescimento da margem. Para resolver isto, introduzimos o Diffusion-SDPO, uma regra de atualização protegida que preserva o vencedor através da escala adaptativa do gradiente do perdedor de acordo com o seu alinhamento com o gradiente do vencedor. Uma análise de primeira ordem produz um coeficiente de escala de forma fechada que garante que o erro da saída preferida é não crescente em cada passo de otimização. O nosso método é simples, agnóstico ao modelo, amplamente compatível com estruturas de alinhamento existentes do estilo DPO e adiciona apenas uma sobrecarga computacional marginal. Em benchmarks padrão texto-imagem, o Diffusion-SDPO oferece ganhos consistentes face a linhas de base de aprendizagem de preferências em métricas automáticas de preferência, estéticas e de alinhamento com o prompt. O código está publicamente disponível em https://github.com/AIDC-AI/Diffusion-SDPO.
A pintura induzida por música é uma prática artística única na qual obras visuais são criadas sob a influência da música. Avaliar se uma pintura reflete fielmente a música que a inspirou constitui uma tarefa desafiadora de avaliação perceptual. Os métodos existentes baseiam-se principalmente em modelos de reconhecimento de emoção para avaliar a similaridade entre a música e a pintura, mas tais modelos introduzem ruído considerável e negligenciam pistas perceptuais mais amplas para além da emoção. Para superar estas limitações, propomos uma nova estrutura para a avaliação de pintura induzida por música que modela diretamente a coerência perceptual entre a música e a arte visual. Apresentamos o MPD, o primeiro conjunto de dados em larga escala de pares música-pintura anotado por especialistas de domínio com base na coerência perceptual. Para lidar melhor com casos ambíguos, recolhemos adicionalmente anotações de preferência por pares. Com base neste conjunto de dados, apresentamos o MPJudge, um modelo que integra características da música num codificador visual através de um mecanismo de fusão baseado em modulação. Para aprender eficazmente com casos ambíguos, adotamos a Otimização de Preferência Direta para o treino. Experimentos extensivos demonstram que o nosso método supera as abordagens existentes. Resultados qualitativos mostram ainda que o nosso modelo identifica mais precisamente as regiões da pintura relevantes para a música.
Os agentes de IA capazes de controlar interfaces de utilizador têm o potencial de transformar a interação humana com dispositivos digitais. Para acelerar esta transformação, dois blocos fundamentais são essenciais: conjuntos de dados de alta qualidade que permitam aos agentes alcançar objetivos complexos e relevantes para os humanos, e métodos de avaliação robustos que permitam aos investigadores e profissionais melhorar rapidamente o desempenho dos agentes. Neste artigo, apresentamos o DigiData, um conjunto de dados multimodal, em larga escala, de alta qualidade e diversificado, concebido para treinar agentes de controlo móvel. Ao contrário dos conjuntos de dados existentes, que derivam objetivos de interações não estruturadas, o DigiData é meticulosamente construído através de uma exploração abrangente das funcionalidades das aplicações, resultando numa maior diversidade e numa maior complexidade dos objetivos. Adicionalmente, apresentamos o DigiData-Bench, um *benchmark* para avaliar agentes de controlo móvel em tarefas complexas do mundo real. Demonstramos que a métrica de precisão por passo, comummente utilizada, é insuficiente para avaliar de forma fiável os agentes de controlo móvel e, para resolver esta questão, propomos protocolos de avaliação dinâmica e avaliações baseadas em IA como alternativas rigorosas para a avaliação de agentes. As nossas contribuições visam avançar significativamente o desenvolvimento de agentes de controlo móvel, abrindo caminho para interações homem-dispositivo mais intuitivas e eficazes.
Devido à sua capacidade de seguir instruções em linguagem natural, os modelos visão-linguagem-ação (VLA) são cada vez mais prevalentes no cenário de IA incorporada, seguindo o sucesso generalizado de seus precursores — LLMs e VLMs. Neste artigo, discutimos 10 marcos principais no desenvolvimento contínuo dos modelos VLA: multimodalidade, raciocínio, dados, avaliação, generalização de ações entre robôs, eficiência, coordenação corporal total, segurança, agentes e coordenação com humanos. Além disso, discutimos as tendências emergentes de uso de compreensão espacial, modelagem da dinâmica do mundo, pós-treinamento e síntese de dados — todas com o objetivo de alcançar esses marcos. Por meio dessas discussões, esperamos direcionar a atenção para as vias de pesquisa que podem acelerar o desenvolvimento dos modelos VLA rumo a uma aceitação mais ampla.
Embora os Modelos de Visão e Linguagem (VLMs) pós-treinados com Aprendizado por Reforço (RL) demonstrem raciocínio geral impressionante, sua avaliação frequentemente se restringe a tarefas dominadas pela linguagem (por exemplo, matemática). Isso levanta uma questão crítica: o pós-treinamento com RL pode realmente estender a fronteira de capacidade inerente de um VLM base, particularmente para tarefas espaciais centradas na visão onde ele inicialmente falha? Para investigar isso, apresentamos Ariadne, um framework que utiliza labirintos sintéticos para raciocínio espacial multi-etapas, onde a dificuldade da tarefa (por exemplo, comprimento do caminho, curvas) é controlada com precisão. Aproveitamos este ambiente controlável para treinar VLMs usando Aprendizado por Reforço com Recompensas Verificadas (RLVR) em um currículo consciente da dificuldade. Surpreendentemente, após o treinamento RLVR, o VLM atinge mais de 50% de precisão em um conjunto de problemas onde o modelo base obteve 0%, demonstrando que nossa abordagem expande a fronteira de capacidade inicial do modelo. Para avaliar a viabilidade no mundo real, avaliamos a generalização fora da distribuição (OOD) em benchmarks práticos. Apesar de treinado apenas em amostras sintéticas de labirinto, Ariadne alcança melhorias significativas de *zero-shot*, com média de 16% no MapBench (por exemplo, navegação em museus) e 24% no ReasonMap (tarefas de transferência de metrô). Esses resultados confirmam que nosso método não apenas amplia os limites fundamentais do modelo, mas também melhora sua generalização para o raciocínio espacial do mundo real. Reconhecemos que nosso estudo é limitado à fase de pós-treinamento, dada a opacidade dos dados de pré-treinamento, e esperamos que nossa pesquisa motive trabalhos futuros sobre alinhamento especializado e extensor de capacidades.
Apresentamos o DIMO, uma abordagem generativa capaz de gerar movimentos 3D diversos para objetos arbitrários a partir de uma única imagem. A ideia central do nosso trabalho é aproveitar os *priors* ricos em modelos de vídeo bem treinados para extrair os padrões comuns de movimento e, em seguida, incorporá-los num espaço latente compartilhado de baixa dimensão. Especificamente, geramos primeiro vários vídeos do mesmo objeto com movimentos diversos. Depois, incorporamos cada movimento num vetor latente e treinamos um decodificador de movimento compartilhado para aprender a distribuição de movimentos representada por uma representação de movimento estruturada e compacta, ou seja, trajetórias de pontos-chave neurais. Os Gaussianos 3D canónicos são então conduzidos por estes pontos-chave e fundidos para modelar a geometria e a aparência. Durante o tempo de inferência com o espaço latente aprendido, podemos amostrar instantaneamente diversos movimentos 3D numa única passagem direta e suportar várias aplicações interessantes, incluindo interpolação de movimento 3D e geração de movimento guiada por linguagem. A nossa página do projeto está disponível em https://linzhanm.github.io/dimo.
A otimização do desempenho de repositórios de software em larga escala exige conhecimentos especializados em raciocínio sobre código e engenharia de software (SWE) para reduzir o tempo de execução, preservando a correção do programa. No entanto, a maioria dos *benchmarks* enfatiza o *o que* corrigir em vez de *como* corrigir o código. Apresentamos o SWE-fficiency, um *benchmark* para avaliar a otimização de desempenho em nível de repositório em cargas de trabalho reais. Nossa suíte contém 498 tarefas em nove repositórios amplamente utilizados de ciência de dados, aprendizado de máquina e HPC (por exemplo, numpy, pandas, scipy): dado uma base de código completa e uma carga de trabalho lenta, um agente deve investigar a semântica do código, localizar gargalos e testes relevantes, e produzir um *patch* que iguale ou supere a aceleração obtida por um especialista, passando nos mesmos testes unitários. Para permitir esta avaliação de *como corrigir*, nosso *pipeline* automatizado extrai *pull requests* do GitHub que contenham edições de melhoria de desempenho, combinando filtragem por palavras-chave, análise estática, ferramentas de cobertura e validação de execução para confirmar as linhas de base de aceleração dos especialistas e identificar os testes unitários relevantes do repositório. A avaliação empírica de agentes state-of-the-art revela um desempenho significativamente abaixo do esperado. Em média, os agentes alcançam menos de 0,15x da aceleração obtida pelo especialista: os agentes têm dificuldade em localizar oportunidades de otimização, raciocinar sobre a execução através de funções e manter a correção nas edições propostas. Disponibilizamos o *benchmark* e o *pipeline* de dados associado para facilitar a pesquisa em engenharia de desempenho automatizada e raciocínio de software de longo horizonte.
A Reconhecimento de Emoções em Conversas (ERC) é uma tarefa crucial para a compreensão das emoções humanas e para permitir uma interação homem-computador natural. Embora os Grandes Modelos de Linguagem (LLMs) tenham demonstrado recentemente grande potencial nesta área, a sua capacidade de capturar as conexões intrínsecas entre emoções explícitas e implícitas permanece limitada. Propomos um novo framework de treino para ERC, o PRC-Emo, que integra *Prompt engineering*, Recuperação de demonstrações e Aprendizagem por currículo, com o objetivo de explorar se os LLMs podem perceber eficazmente as emoções em contextos conversacionais. Especificamente, concebemos modelos de *prompt* sensíveis à emoção, baseados em pistas emocionais explícitas e implícitas, para melhor orientar o modelo na compreensão dos estados psicológicos do interlocutor. Construímos o primeiro repositório dedicado de recuperação de demonstrações para ERC, que inclui amostras de treino de conjuntos de dados amplamente utilizados, bem como exemplos de diálogo de alta qualidade gerados por LLMs e verificados manualmente. Além disso, introduzimos uma estratégia de aprendizagem por currículo no processo de afinação LoRA, incorporando transições emocionais ponderadas entre enunciados do mesmo interlocutor e de interlocutores diferentes para atribuir níveis de dificuldade às amostras de diálogo, que são depois organizadas numa sequência de treino do fácil para o difícil. Os resultados experimentais em dois conjuntos de dados de referência – IEMOCAP e MELD – mostram que o nosso método atinge um novo desempenho state-of-the-art (SOTA), demonstrando a eficácia e a generalizabilidade da nossa abordagem na melhoria da compreensão emocional baseada em LLM.
Os grandes modelos de linguagem (LLMs) alcançaram recentemente resultados impressionantes no reconhecimento de fala em múltiplas modalidades, incluindo o Reconhecimento de Fala Auditivo (ASR), o Reconhecimento de Fala Visual (VSR) e o Reconhecimento de Fala Áudio-Visual (AVSR). Apesar deste progresso, as abordagens atuais baseadas em LLM normalmente tratam cada tarefa de forma independente, treinando modelos separados que aumentam o uso de recursos computacionais e de implantação, perdendo potenciais sinergias entre tarefas. Elas também dependem de compressão de tokens com taxa fixa, o que restringe a flexibilidade no equilíbrio entre precisão e eficiência. Estas limitações destacam a necessidade de uma estrutura unificada que possa suportar ASR, VSR e AVSR, permitindo simultaneamente inferência elástica. Para este fim, apresentamos o Omni-AVSR, um LLM áudio-visual unificado que combina treinamento eficiente multi-granular com adaptação com eficiência de parâmetros. Especificamente, adaptamos o paradigma de aprendizagem de representação *matryoshka* para treinar eficientemente em múltiplas granularidades de áudio e vídeo, reduzindo o uso inerente de recursos de treinamento. Além disso, exploramos três estratégias baseadas em LoRA para adaptar o LLM base, equilibrando especialização partilhada e específica por tarefa. Experiências nos conjuntos LRS2 e LRS3 mostram que o Omni-AVSR alcança uma precisão comparável ou superior às *baselines* state-of-the-art, enquanto treina um único modelo com um uso de recursos de treinamento e implantação substancialmente menor. O modelo também mantém robustez sob ruído acústico, e analisamos o seu comportamento de escalabilidade à medida que o tamanho do LLM aumenta, fornecendo insights sobre o compromisso (*trade-off*) entre desempenho e eficiência.