Artigos de pesquisa em IA selecionados diariamente com traduções
Embora os agentes autónomos de engenharia de software (ES) estejam a remodelar os paradigmas de programação, atualmente sofrem de uma limitação de "mundo fechado": tentam corrigir erros do zero ou utilizando apenas o contexto local, ignorando a imensa experiência histórica humana disponível em plataformas como o GitHub. O acesso a esta experiência de "mundo aberto" é dificultado pela natureza não estruturada e fragmentada dos dados reais de rastreamento de problemas. Neste artigo, introduzimos o MemGovern, um *framework* concebido para gerir e transformar dados brutos do GitHub em memória experiencial acionável para agentes. O MemGovern emprega a governação da experiência para converter a experiência humana em cartões de experiência compatíveis com agentes e introduz uma estratégia de busca de experiência agentica que permite a recuperação orientada por lógica do conhecimento humano. Ao produzir 135 mil cartões de experiência geridos, o MemGovern alcança um aumento significativo de desempenho, melhorando as taxas de resolução no SWE-bench Verified em 4,65%. Como uma abordagem de *plug-in*, o MemGovern fornece uma solução para infraestrutura de memória compatível com agentes.
Apesar do rápido progresso dos modelos de geração de vídeo, o papel dos dados na influência do movimento é pouco compreendido. Apresentamos o Motive (Atribuição de Movimento para Geração de Vídeo), uma estrutura de atribuição de dados centrada no movimento e baseada em gradientes que se dimensiona para conjuntos de dados e modelos de vídeo modernos, grandes e de alta qualidade. Utilizamos isso para estudar quais clipes de *fine-tuning* melhoram ou degradam a dinâmica temporal. O Motive isola a dinâmica temporal da aparência estática por meio de máscaras de perda ponderadas pelo movimento, resultando em um cálculo de influência específico para o movimento eficiente e escalável. Em modelos de texto para vídeo, o Motive identifica clipes que afetam fortemente o movimento e orienta a curadoria de dados que melhora a consistência temporal e a plausibilidade física. Com dados de alta influência selecionados pelo Motive, nosso método melhora tanto a suavidade do movimento quanto o grau dinâmico no VBench, alcançando uma taxa de preferência humana de 74,1% em comparação com o modelo base pré-treinado. Até onde sabemos, esta é a primeira estrutura a atribuir movimento em vez de aparência visual em modelos generativos de vídeo e a usá-la para curar dados de *fine-tuning*.
Apresentamos o Solar Open, um modelo de linguagem bilíngue do tipo Mixture-of-Experts com 102 bilhões de parâmetros, desenvolvido para línguas subatendidas. O Solar Open demonstra uma metodologia sistemática para a construção de LLMs competitivos, abordando três desafios interconectados. Primeiro, para treinar de forma eficaz apesar da escassez de dados para línguas subatendidas, sintetizamos 4,5 trilhões de *tokens* de dados de alta qualidade, específicos de domínio e orientados para Aprendizado por Reforço (RL). Segundo, coordenamos esses dados por meio de um currículo progressivo que otimiza conjuntamente a composição, os limiares de qualidade e a cobertura de domínio em 20 trilhões de *tokens*. Terceiro, para habilitar capacidades de raciocínio por meio de RL escalável, aplicamos nossa estrutura proposta, a SnapPO, para uma otimização eficiente. Em *benchmarks* em inglês e coreano, o Solar Open atua de forma competitiva, demonstrando a eficácia desta metodologia para o desenvolvimento de IA em línguas subatendidas.
Os benchmarks de memória de longo prazo existentes utilizam principalmente diálogos multiturno ou históricos de usuário sintéticos, o que torna o desempenho de recuperação um proxy imperfeito para a compreensão da pessoa. Apresentamos o \BenchName, um benchmark publicamente disponível construído a partir de narrativas autobiográficas longas, onde ações, contexto e pensamentos internos fornecem evidências densas para inferir motivações estáveis e princípios de decisão. O \BenchName reconstrói cada narrativa em um fluxo temporalmente ancorado e consciente de flashbacks, e avalia os modelos com questões vinculadas a evidências que abrangem recall factual, atribuição de estado subjetivo e raciocínio em nível de princípios. Em diversas fontes narrativas, os sistemas aumentados por recuperação melhoram principalmente a precisão factual, enquanto os erros persistem em explicações temporalmente fundamentadas e inferências de nível superior, destacando a necessidade de mecanismos de memória além da recuperação. Nossos dados estão disponíveis em KnowMeBench{https://github.com/QuantaAlpha/KnowMeBench}.
Apresentamos a série Ministral 3, uma família de modelos de linguagem densos com eficiência de parâmetros, projetada para aplicações com restrições de computação e memória, disponível em três tamanhos: 3B, 8B e 14B de parâmetros. Para cada tamanho de modelo, lançamos três variantes: um modelo base pré-treinado para uso geral, um modelo com ajuste fino para instruções e um modelo de raciocínio para resolução de problemas complexos. Além disso, apresentamos nossa metodologia para derivar os modelos Ministral 3 por meio da Destilação em Cascata, uma técnica de poda iterativa e treinamento contínuo com destilação. Cada modelo possui capacidades de compreensão de imagens, todos sob a licença Apache 2.0.
O aprendizado por reforço melhorou substancialmente o desempenho de agentes de LLM em tarefas com resultados verificáveis, mas ainda enfrenta dificuldades em tarefas de agente de natureza aberta com vastos espaços de solução (por exemplo, planejamento complexo de viagens). Devido à ausência de uma verdade fundamental objetiva para essas tarefas, os algoritmos de RL atuais dependem amplamente de modelos de recompensa que atribuem pontuações escalares a respostas individuais. Nós argumentamos que essa pontuação pontual sofre de um colapso de discriminação inerente: o modelo de recompensa luta para distinguir vantagens sutis entre diferentes trajetórias, resultando em escores dentro de um grupo sendo comprimidos em uma faixa estreita. Consequentemente, o sinal de recompensa efetivo torna-se dominado pelo ruído do modelo de recompensa, levando à estagnação da otimização. Para resolver isso, propomos o ArenaRL, um paradigma de aprendizado por reforço que muda da pontuação escalar pontual para a classificação relativa intra-grupo. O ArenaRL introduz um mecanismo de avaliação pareada consciente do processo, empregando rubricas multinível para atribuir escores relativos de granularidade fina às trajetórias. Adicionalmente, construímos uma arena adversarial intra-grupo e elaboramos um esquema de classificação baseado em torneios para obter sinais de vantagem estáveis. Resultados empíricos confirmam que o esquema de eliminação simples inicial construído alcança uma precisão de estimativa de vantagem quase equivalente às comparações pareadas completas com complexidade O(N²), enquanto opera com apenas complexidade O(N), atingindo um equilíbrio ideal entre eficiência e precisão. Além disso, para abordar a carência de benchmarks de ciclo completo para agentes de natureza aberta, construímos o Open-Travel e o Open-DeepResearch, dois benchmarks de alta qualidade que apresentam um pipeline abrangente cobrando SFT, treinamento de RL e avaliação multidimensional. Experimentos extensivos mostram que o ArenaRL supera substancialmente as linhas de base padrão de RL, permitindo que agentes de LLM gerem soluções mais robustas para tarefas complexas do mundo real.
A recente mudança de paradigma em direção a grandes modelos de raciocínio (LRMs) como agentes autónomos intensificou a demanda por capacidades sofisticadas e multi-turno de uso de ferramentas. No entanto, os conjuntos de dados e abordagens de geração de dados existentes são limitados por conjuntos de ferramentas estáticos e predefinidos, que não conseguem escalar para a complexidade da colaboração aberta entre humanos e agentes. Para resolver isso, desenvolvemos inicialmente uma estrutura para geração automatizada de diálogos multi-turno orientados por tarefas em escala, utilizando um simulador baseado em LRM para gerar dinamicamente ferramentas de alto valor e específicas de domínio para resolver tarefas especificadas. No entanto, observamos que um design puramente orientado a tarefas frequentemente resulta em trajetórias de "apenas resolução de tarefas", onde o agente conclui o objetivo com interação mínima, falhando em gerar as conversas com alto número de turnos vistas em cenários realistas. Para preencher esta lacuna, mudamos para um paradigma de simulação orientado ao utilizador. Ao desacoplar a geração de tarefas de um simulador de utilizador dedicado que imita regras comportamentais humanas – como a realização incremental de pedidos e o feedback turno a turno – facilitamos diálogos multi-turno mais autênticos e prolongados, que refletem a natureza iterativa da resolução de problemas do mundo real. Nossa pipeline de geração opera como um módulo versátil e plug-and-play, capaz de iniciar a geração a partir de qualquer estado, garantindo alta escalabilidade na produção de dados estendidos de uso de ferramentas. Além disso, ao facilitar múltiplas conclusões de tarefas dentro de uma única trajetória, produz um conjunto de dados de alta densidade que reflete as demandas multifacetadas da interação real entre humanos e agentes.
A construção de agentes inteligentes capazes de manipulação destra é essencial para alcançar uma automação de caráter humanoide tanto em robótica quanto em ambientes digitais. No entanto, os agentes de interface gráfica (GUI) existentes baseiam-se em previsões discretas de cliques (x,y), o que proíbe trajetórias de livre-forma e em malha fechada (por exemplo, arrastar uma barra de progresso) que exigem perceção e ajuste contínuos e em tempo real. Neste trabalho, desenvolvemos o ShowUI-π, o primeiro modelo generativo baseado em fluxo como uma mão destra de GUI, apresentando os seguintes designs: (i) Ações Unificadas Discretas-Contínuas, integrando cliques discretos e arrastos contínuos dentro de um modelo partilhado, permitindo uma adaptação flexível através de diversos modos de interação; (ii) Geração de Ação Baseada em Fluxo para modelação de arrasto, que prevê ajustes incrementais do cursor a partir de observações visuais contínuas através de um perito de ação leve, garantindo trajetórias suaves e estáveis; (iii) Dados de Treino de Arrasto e Benchmark, onde recolhemos e sintetizamos manualmente 20 mil trajetórias de arrasto em cinco domínios (por exemplo, PowerPoint, Adobe Premiere Pro), e introduzimos o ScreenDrag, um benchmark com protocolos de avaliação online e offline abrangentes para avaliar as capacidades de arrasto de agentes de GUI. As nossas experiências mostram que os agentes proprietários de GUI ainda têm dificuldades no ScreenDrag (por exemplo, o Operator pontua 13,27, e o melhor Gemini-2.5-CUA atinge 22,18). Em contraste, o ShowUI-π atinge 26,98 com apenas 450M de parâmetros, sublinhando tanto a dificuldade da tarefa como a eficácia da nossa abordagem. Esperamos que este trabalho avance os agentes de GUI em direção a um controlo destro de caráter humanoide no mundo digital. O código está disponível em https://github.com/showlab/showui-pi.
O raciocínio complexo em estruturas de agentes aumentados por ferramentas é inerentemente de longo horizonte, fazendo com que os traços de raciocínio e os artefactos transitórios das ferramentas se acumulem e sobrecarreguem o contexto de trabalho limitado dos grandes modelos de linguagem. Sem mecanismos de memória explícitos, tal acumulação perturba a continuidade lógica e compromete o alinhamento com a tarefa. Isto posiciona a memória não como uma preocupação auxiliar de eficiência, mas como um componente central para sustentar um raciocínio coerente e orientado a objetivos em horizontes longos. Propomos o MemoBrain, um modelo de memória executiva para agentes aumentados por ferramentas que constrói uma memória com consciência de dependências sobre os passos de raciocínio, capturando estados intermédios salientes e as suas relações lógicas. Funcionando como um co-piloto ao lado do agente de raciocínio, o MemoBrain organiza o progresso do raciocínio sem bloquear a execução e gere ativamente o contexto de trabalho. Especificamente, ele poda passos inválidos, dobra sub-trajetórias concluídas e preserva uma espinha dorsal de raciocínio compacta e de alta saliência dentro de um orçamento fixo de contexto. Em conjunto, estes mecanismos permitem um controlo cognitivo explícito sobre as trajetórias de raciocínio, em vez de uma acumulação passiva de contexto. Avaliamos o MemoBrain em benchmarks desafiadores de longo horizonte, incluindo GAIA, WebWalker e BrowseComp-Plus, demonstrando melhorias consistentes face a linhas de base robustas.
Métodos de segmentação de objetos em vídeo, como o SAM2, alcançam alto desempenho por meio de arquiteturas baseadas em memória, mas enfrentam dificuldades sob grandes mudanças de perspectiva devido à dependência de características de aparência. Métodos tradicionais de segmentação de instâncias 3D abordam a consistência de perspectiva, mas exigem poses de câmera, mapas de profundidade e pré-processamento dispendioso. Apresentamos o 3AM, um aprimoramento no tempo de treinamento que integra características 3D do MUSt3R no SAM2. Nosso Leve Fusionador de Características funde características multi-nível do MUSt3R que codificam correspondência geométrica implícita. Combinado com as características de aparência do SAM2, o modelo alcança reconhecimento geometricamente consistente baseado tanto na posição espacial quanto na similaridade visual. Propomos uma estratégia de amostragem consciente do campo de visão que garante que os quadros observem regiões de objetos espacialmente consistentes para um aprendizado confiável de correspondência 3D. Criticalmente, nosso método requer apenas entrada RGB na inferência, sem poses de câmera ou pré-processamento. Em conjuntos de dados desafiadores com movimento de linha de base ampla (ScanNet++, Replica), o 3AM supera substancialmente o SAM2 e suas extensões, alcançando 90,6% de IoU e 71,7% de IoU Positivo no Subconjunto Selecionado do ScanNet++, melhorando os métodos state-of-the-art de VOS em +15,9 e +30,4 pontos. Página do projeto: https://jayisaking.github.io/3AM-Page/
Os agentes autónomos baseados em grandes modelos de linguagem (LLMs) estão a evoluir rapidamente para lidar com tarefas de múltiplos turnos, mas garantir a sua confiabilidade continua a ser um desafio crítico. Um pilar fundamental desta confiabilidade é a calibração, que se refere à capacidade de um agente expressar uma confiança que reflete de forma fiável o seu desempenho real. Embora a calibração esteja bem estabelecida para modelos estáticos, a sua dinâmica em fluxos de trabalho agentivos com integração de ferramentas permanece pouco explorada. Neste trabalho, investigamos sistematicamente a calibração verbalizada em agentes que utilizam ferramentas, revelando uma dicotomia fundamental de confiança impulsionada pelo tipo de ferramenta. Especificamente, o nosso estudo piloto identifica que as ferramentas de evidência (por exemplo, pesquisa na web) induzem sistematicamente uma sobreconfiança severa devido ao ruído inerente na informação recuperada, enquanto as ferramentas de verificação (por exemplo, interpretadores de código) podem fundamentar o raciocínio através de *feedback* determinístico e mitigar a má calibração. Para melhorar robustamente a calibração entre tipos de ferramentas, propomos um framework de *fine-tuning* por aprendizagem por reforço (RL) que otimiza conjuntamente a precisão da tarefa e a calibração, apoiado por um *benchmark* holístico de desenhos de recompensa. Demonstramos que os nossos agentes treinados não só alcançam uma calibração superior, mas também exibem uma generalização robusta desde ambientes de treino locais para configurações web ruidosas e para domínios distintos, como o raciocínio matemático. Os nossos resultados destacam a necessidade de estratégias de calibração específicas por domínio para agentes que utilizam ferramentas. De forma mais ampla, este trabalho estabelece uma base para a construção de agentes autoconscientes que podem comunicar de forma fiável a incerteza em implementações do mundo real de alto risco.
A Geração Aumentada por Recuperação enfrenta um dilema: a concatenação de documentos em um prompt extenso permite o raciocínio multi-documento, mas cria gargalos de preenchimento prévio, enquanto a codificação separada dos caches KV dos documentos oferece velocidade, mas quebra a interação entre documentos. Propomos a Decodificação Paralela do Contexto de Especialistas (Pced), uma estrutura livre de treinamento que desloca a agregação de evidências do mecanismo de atenção para a decodificação. O Pced trata os documentos recuperados como "especialistas" isolados, sincronizando suas previsões por meio de uma nova regra de decodificação contrastiva consciente da recuperação, que pondera os logits dos especialistas em relação ao prior do modelo. Esta abordagem recupera as capacidades de raciocínio entre documentos sem construir uma atenção compartilhada entre os documentos.
Avanços recentes em transformadores de difusão (DiTs) estabeleceram novos padrões na geração de imagens, mas permanecem impraticáveis para implantação em dispositivos devido aos seus altos custos computacionais e de memória. Neste trabalho, apresentamos uma estrutura eficiente de DiT adaptada para dispositivos móveis e de borda que alcança qualidade de geração em nível de transformer sob rigorosas restrições de recursos. Nosso projeto combina três componentes principais. Primeiro, propomos uma arquitetura compacta de DiT com um mecanismo de atenção esparsa global-local adaptativa que equilibra a modelagem de contexto global e a preservação de detalhes locais. Segundo, propomos uma estrutura de treinamento elástica que otimiza conjuntamente sub-DiTs de capacidades variadas dentro de uma super-rede unificada, permitindo que um único modelo se ajuste dinamicamente para inferência eficiente em diferentes hardwares. Finalmente, desenvolvemos a Destilação por Correspondência de Distribuição Guiada por Conhecimento, um pipeline de destilação por etapas que integra o objetivo DMD com a transferência de conhecimento de modelos professores de poucas etapas, produzindo geração de alta fidelidade e baixa latência (por exemplo, 4 etapas) adequada para uso em tempo real no dispositivo. Juntas, essas contribuições permitem modelos de difusão escaláveis, eficientes e de alta qualidade para implantação em hardwares diversos.
Os sistemas de Geração Aumentada por Recuperação (RAG) precisam superar desafios que vão além da simples recuperação de documentos únicos, como a interpretação de elementos visuais (tabelas, gráficos, imagens), a síntese de informações entre vários documentos e o fornecimento de uma fundamentação precisa das fontes. Os *benchmarks* existentes não capturam essa complexidade, focando-se frequentemente em dados textuais, na compreensão de documentos únicos ou na avaliação isolada da recuperação e da geração. Apresentamos o ViDoRe v3, um *benchmark* multimodal abrangente para RAG, que apresenta consultas de múltiplos tipos sobre corpora de documentos visualmente ricos. Abrange 10 conjuntos de dados de diversos domínios profissionais, compreendendo aproximadamente 26.000 páginas de documentos emparelhadas com 3.099 consultas validadas por humanos, cada uma disponível em 6 idiomas. Através de 12.000 horas de trabalho de anotação humana, fornecemos anotações de alta qualidade para relevância na recuperação, localização por *bounding boxes* e respostas de referência verificadas. A nossa avaliação dos sistemas RAG mais avançados revela que os recuperadores visuais superam os textuais, que os modelos de interação tardia e o reranking textual melhoram substancialmente o desempenho, e que contextos híbridos ou puramente visuais aumentam a qualidade da geração de respostas. No entanto, os modelos atuais ainda têm dificuldades com elementos não textuais, consultas abertas e a fundamentação visual de granularidade fina. Para incentivar o progresso na resolução destes desafios, o *benchmark* é disponibilizado sob uma licença comercialmente permissiva em https://hf.co/vidore.
Os sistemas Texto para Visualização (Text2Vis) traduzem consultas em linguagem natural sobre dados tabulares em respostas concisas e visualizações executáveis. Embora os LLMs proprietários gerem código funcional, os gráficos resultantes frequentemente carecem de alinhamento semântico e clareza, qualidades que só podem ser avaliadas após a execução. Os modelos de código aberto enfrentam dificuldades ainda maiores, produzindo frequentemente saídas não executáveis ou visualmente pobres. Embora o ajuste fino supervisionado possa melhorar a capacidade de execução do código, ele não consegue aprimorar a qualidade geral da visualização, uma vez que a perda tradicional do SFT não consegue capturar o *feedback* pós-execução. Para preencher esta lacuna, propomos o RL-Text2Vis, o primeiro *framework* de aprendizagem por reforço para geração Text2Vis. Desenvolvido com base na Otimização de Política Relativa de Grupo (GRPO), o nosso método utiliza uma nova recompensa multiobjetivo que otimiza conjuntamente a precisão textual, a validade do código e a qualidade da visualização usando *feedback* pós-execução. Ao treinar modelos Qwen2.5 (7B e 14B), o RL-Text2Vis alcança uma melhoria relativa de 22% na qualidade dos gráficos em comparação com o GPT-4o no *benchmark* Text2Vis e aumenta o sucesso da execução do código de 78% para 97% em relação à sua linha de base *zero-shot*. Os nossos modelos superam significativamente as linhas de base *zero-shot* e supervisionadas robustas e também demonstram uma generalização robusta para conjuntos de dados fora do domínio, como o VIS-Eval e o NVBench. Estes resultados estabelecem o GRPO como uma estratégia eficaz para o raciocínio estruturado e multimodal na geração de visualizações. Disponibilizamos o nosso código em https://github.com/vis-nlp/RL-Text2Vis.
Com o rápido avanço da geração de imagens, a edição de texto visual usando instruções em linguagem natural tem recebido atenção crescente. O principal desafio desta tarefa é compreender totalmente a instrução e a imagem de referência e, assim, gerar texto visual que seja estilisticamente consistente com a imagem. Métodos anteriores frequentemente envolvem etapas complexas de especificação do conteúdo do texto e seus atributos, como tamanho da fonte, cor e layout, sem considerar a consistência estilística com a imagem de referência. Para resolver isso, propomos o UM-Text, um modelo multimodal unificado para compreensão de contexto e edição de texto visual por meio de instruções em linguagem natural. Especificamente, introduzimos um Modelo de Linguagem Visual (VLM) para processar a instrução e a imagem de referência, de modo que o conteúdo e o layout do texto possam ser elaboradamente projetados de acordo com as informações contextuais. Para gerar uma imagem de texto visual precisa e harmoniosa, propomos ainda o UM-Encoder para combinar as incorporações de várias informações de condição, onde a combinação é configurada automaticamente pelo VLM de acordo com a instrução de entrada. Durante o treinamento, propomos uma função de perda por consistência regional para oferecer uma supervisão mais eficaz para a geração de glifos tanto no espaço latente quanto no espaço RGB, e projetamos uma estratégia de treinamento em três estágios sob medida para melhorar ainda mais o desempenho do modelo. Além disso, contribuímos com o UM-DATA-200K, um grande conjunto de dados de imagens de texto visual em diversas cenas para o treinamento do modelo. Resultados qualitativos e quantitativos extensivos em vários benchmarks públicos demonstram que nosso método alcança desempenho de ponta.
A rápida evolução dos Modelos de Linguagem de Grande Porte Multimodais (MLLMs) tem avançado a automação de fluxos de trabalho; no entanto, as pesquisas existentes focam principalmente nos limites superiores de desempenho em ambientes estáticos, negligenciando a robustez necessária para implantação estocástica no mundo real. Identificamos três desafios principais: escalonamento dinâmico de tarefas, exploração ativa sob incerteza e aprendizagem contínua a partir da experiência. Para preencher esta lacuna, introduzimos o , um ambiente de avaliação dinâmica que simula um agente "estagiário" explorando continuamente um cenário novo. Diferente dos benchmarks tradicionais, o avalia os agentes em três dimensões: (1) escalonamento sensível ao contexto para tarefas em fluxo com prioridades variáveis; (2) aquisição prudente de informação para reduzir alucinações por meio de exploração ativa; e (3) evolução contínua através da destilação de estratégias generalizadas a partir de tarefas baseadas em regras e geradas dinamicamente. Experimentos mostram que os agentes de ponta possuem deficiências significativas em ambientes dinâmicos, especialmente na exploração ativa e na aprendizagem contínua. Nosso trabalho estabelece uma estrutura para avaliar a confiabilidade de agentes, deslocando a avaliação de testes estáticos para cenários realistas e orientados à produção. Nossos códigos estão disponíveis em https://github.com/KnowledgeXLab/EvoEnv.
A substituição controlável de personagens em vídeo com uma identidade fornecida pelo utilizador continua a ser um problema desafiador devido à falta de dados de vídeo emparelhados. Trabalhos anteriores basearam-se predominantemente num paradigma de reconstrução que requer máscaras de segmentação por fotograma e orientação estrutural explícita (por exemplo, esqueleto, profundidade). Esta dependência, no entanto, limita severamente a sua generalização em cenários complexos que envolvem oclusões, interações personagem-objeto, poses incomuns ou iluminação desafiadora, frequentemente resultando em artefactos visuais e inconsistências temporais. Neste artigo, propomos o MoCha, uma estrutura pioneira que contorna estas limitações ao requerer apenas uma única máscara de fotograma arbitrária. Para adaptar eficazmente a condição de entrada multimodal e realçar a identidade facial, introduzimos um RoPE consciente da condição e empregamos uma fase de pós-treino baseada em RL. Adicionalmente, para superar a escassez de dados de treino emparelhados qualificados, propomos um pipeline abrangente de construção de dados. Especificamente, concebemos três conjuntos de dados especializados: um conjunto de dados renderizado de alta fidelidade construído com o Unreal Engine 5 (UE5), um conjunto de dados orientado por expressão sintetizado por técnicas atuais de animação de retrato, e um conjunto de dados aumentado derivado de pares vídeo-máscara existentes. Experiências extensivas demonstram que o nosso método supera substancialmente as abordagens state-of-the-art existentes. Disponibilizaremos o código para facilitar investigação futura. Consulte a nossa página do projeto para mais detalhes: orange-3dv-team.github.io/MoCha
Os modelos VLA têm demonstrado potencial promissor na navegação incorporada ao unificar percepção e planeamento, herdando as fortes capacidades de generalização dos grandes VLMs. No entanto, a maioria dos modelos VLA existentes baseia-se em mapeamentos reativos diretos de observações para ações, carecendo das capacidades de raciocínio explícito e da memória persistente necessárias para tarefas de navegação complexas e de longo horizonte. Para enfrentar estes desafios, propomos o VLingNav, um modelo VLA para navegação incorporada fundamentado na cognição orientada linguisticamente. Primeiro, inspirados pela teoria do processo duplo da cognição humana, introduzimos um mecanismo adaptativo de cadeia de pensamento (chain-of-thought), que aciona dinamicamente o raciocínio explícito apenas quando necessário, permitindo que o agente alterne fluentemente entre uma execução rápida e intuitiva e um planeamento lento e deliberado. Segundo, para lidar com dependências espaciais de longo horizonte, desenvolvemos um módulo de memória linguística assistido visualmente que constrói uma memória semântica persistente e cross-modal, permitindo ao agente recordar observações passadas para evitar exploração repetitiva e inferir tendências de movimento em ambientes dinâmicos. Para a receita de treino, construímos o Nav-AdaCoT-2.9M, o maior conjunto de dados de navegação incorporada com anotações de raciocínio até à data, enriquecido com anotações de CoT adaptativas que induzem um paradigma de raciocínio capaz de ajustar tanto quando pensar como sobre o que pensar. Adicionalmente, incorporamos uma fase de aprendizagem por reforço online guiada por especialistas, permitindo que o modelo ultrapasse a aprendizagem por imitação pura e adquira comportamentos de navegação mais robustos e autoexplorados. Experiências extensivas demonstram que o VLingNav alcança um desempenho state-of-the-art numa ampla gama de benchmarks de navegação incorporada. Notavelmente, o VLingNav transfere-se para plataformas robóticas do mundo real de forma zero-shot, executando várias tarefas de navegação e demonstrando uma forte generalização cross-domínio e cross-tarefa.
Este artigo apresenta o VideoLoom, um Modelo de Linguagem de Grande Porte Unificado para Vídeo (Video LLM) voltado para a compreensão espaço-temporal conjunta. Para facilitar o desenvolvimento de capacidades de localização espacial e temporal de alta granularidade, criámos o LoomData-8.7k, um conjunto de dados de vídeo centrado no ser humano, com legendas temporalmente fundamentadas e espacialmente localizadas. Com isto, o VideoLoom alcança um desempenho state-of-the-art ou altamente competitivo em várias benchmarks espaciais e temporais (por exemplo, 63.1 J&F no ReVOS para segmentação de objetos em vídeo por referência, e 48.3 R1@0.7 no Charades-STA para localização temporal). Adicionalmente, introduzimos a LoomBench, uma nova benchmark composta por pares vídeo-pergunta temporais, espaciais e composicionais, permitindo uma avaliação abrangente de Video LLMs a partir de diversas perspetivas. Coletivamente, estas contribuições oferecem um conjunto universal e eficaz para a compreensão espaço-temporal conjunta de vídeo, estabelecendo um novo padrão em inteligência multimodal.
A melhoria das capacidades de raciocínio de modelos de linguagem de grande escala (LLMs) tem dependido amplamente do autoaprendizado iterativo com dados gerados pelo próprio modelo. Embora eficazes para aumentar a precisão, as abordagens existentes reforçam principalmente os caminhos de raciocínio bem-sucedidos, incorrendo num custo substancial de calibração: os modelos tornam-se excessivamente confiantes e perdem a capacidade de representar a incerteza. Esta falha foi caracterizada como uma forma de colapso do modelo no alinhamento, em que as distribuições preditivas degeneram em direção a estimativas pontuais de baixa variância. Nós abordamos esta questão reformulando o treino de raciocínio como um problema de aprendizagem epistémica, no qual os modelos devem aprender não apenas a raciocinar, mas também quando o seu raciocínio deve ser confiável. Propomos o raciocínio epistemicamente calibrado (EpiCaR) como um objetivo de treino que otimiza conjuntamente o desempenho do raciocínio e a calibração, e instanciamo-lo num quadro de *fine-tuning* supervisionado iterativo usando sinais explícitos de autoavaliação. Experiências nas famílias Llama-3 e Qwen-3 demonstram que a nossa abordagem alcança uma superioridade de Pareto sobre as linhas de base padrão, tanto em precisão como em calibração, particularmente em modelos com capacidade de raciocínio suficiente (ex: 3B+). Este quadro generaliza-se eficazmente para raciocínio matemático fora da distribuição (GSM8K) e geração de código (MBPP). No final, a nossa abordagem permite uma redução de 3X no cálculo de inferência, igualando o desempenho K=30 do STaR com apenas K=10 amostras em modelos capazes.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) tornou-se um paradigma padrão para o raciocínio em Modelos de Linguagem de Grande Porte. No entanto, otimizar apenas para a correção da resposta final frequentemente leva os modelos a uma exploração sem rumo e verbosa, na qual eles dependem de táticas exaustivas de tentativa e erro, em vez de planejamento estruturado, para chegar a soluções. Embora restrições heurísticas, como penalidades de comprimento, possam reduzir a verbosidade, elas frequentemente truncam etapas de raciocínio essenciais, criando uma difícil compensação entre eficiência e verificação. Neste artigo, argumentamos que a capacidade discriminativa é um pré-requisito para a geração eficiente: ao aprender a distinguir soluções válidas, um modelo pode internalizar um sinal de orientação que poda o espaço de busca. Propomos o JudgeRLVR, um paradigma de julgar-depois-gerar em dois estágios. No primeiro estágio, treinamos o modelo para julgar respostas de soluções com respostas verificáveis. No segundo estágio, afinamos o mesmo modelo com o RLVR de geração padrão, inicializado a partir do "juiz". Em comparação com o RLVR Padrão usando os mesmos dados de treinamento do domínio matemático, o JudgeRLVR alcança uma melhor compensação qualidade-eficiência para o Qwen3-30B-A3B: em matemática dentro do domínio, ele proporciona um ganho médio de precisão de cerca de +3,7 pontos com uma redução de -42% no comprimento médio de geração; em benchmarks fora do domínio, ele proporciona uma melhoria média de precisão de cerca de +4,5 pontos, demonstrando uma generalização aprimorada.
Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais utilizados em sistemas de verificação de factos do mundo real, no entanto, as avaliações existentes concentram-se predominantemente na verificação de alegações e negligenciam o fluxo de trabalho mais abrangente da verificação de factos, incluindo a extração de alegações e a recuperação de evidências. Este foco restrito impede que os benchmarks atuais revelem falhas sistemáticas de raciocínio, pontos cegos factuais e limitações de robustez dos LLMs modernos. Para colmatar esta lacuna, apresentamos o FactArena, um quadro de avaliação de estilo arena totalmente automatizado que realiza uma avaliação abrangente e faseada de LLMs em todo o pipeline completo de verificação de factos. O FactArena integra três componentes principais: (i) um processo de verificação de factos conduzido por LLM que padroniza a decomposição de alegações, a recuperação de evidências através de interações aumentadas por ferramentas e a previsão de vereditos baseada em justificações; (ii) um mecanismo de julgamento de estilo arena orientado por diretrizes de referência consolidadas para garantir comparações pareadas imparciais e consistentes entre agentes juízes heterogéneos; e (iii) um módulo de evolução de alegações conduzido pela arena que gera de forma adaptativa alegações mais desafiantes e semanticamente controladas para analisar a robustez factual dos LLMs para além dos dados de origem fixos. Em 16 LLMs de última geração abrangendo sete famílias de modelos, o FactArena produz classificações estáveis e interpretáveis. As nossas análises revelam ainda discrepâncias significativas entre a precisão estática na verificação de alegações e a competência de verificação de factos de ponta a ponta, destacando a necessidade de uma avaliação holística. O quadro proposto oferece um paradigma escalável e confiável para diagnosticar o raciocínio factual dos LLMs, orientar o desenvolvimento futuro de modelos e avançar a implementação fiável de LLMs em aplicações de verificação de factos críticas para a segurança.
A tokenização discreta de movimento tem permitido recentemente que os Grandes Modelos de Linguagem (LLMs) atuem como estruturas versáteis para a compreensão de movimento e o raciocínio entre movimento e linguagem. No entanto, os *pipelines* existentes geralmente desacoplam a quantização do movimento da aprendizagem de incorporação semântica, ligando-as apenas através de IDs de token. Essa abordagem não consegue alinhar efetivamente a geometria intrínseca do espaço de movimento com o espaço de incorporação, prejudicando assim a capacidade do LLM para um raciocínio de movimento matizado. Argumentamos que o alinhamento é mais eficaz quando ambas as modalidades compartilham uma base geométrica unificada. Portanto, em vez de forçar o LLM a reconstruir a geometria complexa entre os tokens de movimento do zero, apresentamos uma nova estrutura que impõe explicitamente ortogonalidade tanto no *codebook* de movimento quanto no espaço de incorporação do LLM, garantindo que suas estruturas relacionais se espelhem naturalmente. Especificamente, empregamos um quantizador apenas-decodificador com Gumbel-Softmax para treinamento diferenciável e uso balanceado do *codebook*. Para conectar as modalidades, usamos uma projeção esparsa que mapeia os códigos de movimento para o espaço de incorporação do LLM, preservando a ortogonalidade. Finalmente, um cronograma de regularização ortonormal em dois estágios impõe restrições suaves durante o treinamento do tokenizador e o ajuste fino do LLM para manter o alinhamento geométrico sem prejudicar a adaptação semântica. Experimentos extensivos no HumanML3D demonstram que nossa estrutura alcança uma melhoria de desempenho de 20% sobre os métodos state-of-the-art atuais, validando que uma base geométrica unificada capacita efetivamente o LLM para um raciocínio de movimento matizado.