Artigos de pesquisa em IA selecionados diariamente com traduções
A tarefa de geolocalização de imagens visa prever a localização onde uma imagem foi capturada em qualquer ponto da Terra usando pistas visuais. As abordagens existentes com grandes modelos de visão e linguagem (LVLMs) aproveitam o conhecimento mundial, o raciocínio em cadeia de pensamento e as capacidades agentivas, mas negligenciam uma estratégia comum usada por humanos: o uso de mapas. Neste trabalho, primeiro equipamos o modelo com a capacidade de Pensar com Mapas e a formulamos como um loop de agente-no-mapa. Desenvolvemos um esquema de otimização em dois estágios para isso, incluindo aprendizado por reforço (RL) agentico seguido por escalonamento paralelo em tempo de teste (TTS). O RL fortalece a capacidade agentica do modelo para melhorar a eficiência de amostragem, e o TTS paralelo permite que o modelo explore múltiplos caminhos candidatos antes de fazer a previsão final, o que é crucial para a geolocalização. Para avaliar nosso método em imagens atualizadas e do mundo real, apresentamos ainda o MAPBench, um benchmark abrangente de treinamento e avaliação de geolocalização composto inteiramente por imagens reais. Os resultados experimentais mostram que nosso método supera os modelos existentes de código aberto e fechado na maioria das métricas, especificamente melhorando a Acc@500m de 8,0% para 22,1% em comparação com o Gemini-3-Pro com modo aterrado no Google Search/Mapas.
A autoformalização, que traduz matemática em linguagem natural para declarações formais para permitir raciocínio automatizado, enfrenta desafios fundamentais em ambientes reais devido à natureza multimodal do mundo físico, onde a física exige inferir restrições ocultas (por exemplo, massa ou energia) a partir de elementos visuais. Para resolver isso, propomos o MMFormalizer, que estende a autoformalização para além do texto, integrando uma ancoragem adaptativa com entidades de domínios matemáticos e físicos do mundo real. O MMFormalizer constrói recursivamente proposições formais a partir de primitivas perceptualmente ancoradas através de ancoragem recursiva e composição axiomática, com terminação recursiva adaptativa garantindo que toda abstração seja suportada por evidência visual e ancorada em fundamentação dimensional ou axiomática. Avaliamos o MMFormalizer em um novo benchmark, o PhyX-AF, compreendendo 115 amostras curadas do MathVerse, PhyX, Geometria Sintética e Geometria Analítica, abrangendo diversas tarefas de autoformalização multimodal. Os resultados mostram que modelos de fronteira, como o GPT-5 e o Gemini-3-Pro, alcançam a maior precisão de compilação e semântica, com o GPT-5 se destacando no raciocínio físico, enquanto a geometria permanece como o domínio mais desafiador. No geral, o MMFormalizer fornece uma estrutura escalável para autoformalização multimodal unificada, conectando percepção e raciocínio formal. Até onde sabemos, este é o primeiro método de autoformalização multimodal capaz de lidar com mecânica clássica (derivada do Hamiltoniano), bem como relatividade, mecânica quântica e termodinâmica. Mais detalhes estão disponíveis em nossa página do projeto: MMFormalizer.github.io.
Neste relatório, apresentamos as séries de modelos Qwen3-VL-Embedding e Qwen3-VL-Reranker, as mais recentes extensões da família Qwen construídas sobre o modelo base Qwen3-VL. Em conjunto, elas fornecem um *pipeline* de ponta a ponta para busca multimodal de alta precisão, mapeando diversas modalidades — incluindo texto, imagens, imagens de documentos e vídeo — para um espaço de representação unificado. O modelo Qwen3-VL-Embedding emprega um paradigma de treinamento multietapas, progredindo de um pré-treinamento contrastivo em larga escala para a destilação do modelo de rerranqueamento, a fim de gerar vetores de alta dimensão semanticamente ricos. Ele suporta *Matryoshka Representation Learning*, permitindo dimensões de *embedding* flexíveis, e processa entradas de até 32 mil *tokens*. Complementando isso, o Qwen3-VL-Reranker realiza uma estimativa de relevância refinada para pares consulta-documento usando uma arquitetura de *cross-encoder* com mecanismos de *cross-attention*. Ambas as séries de modelos herdam as capacidades multilíngues do Qwen3-VL, suportando mais de 30 idiomas, e são lançadas nos tamanhos de 2B e 8B de parâmetros para acomodar diversas necessidades de implantação. Avaliações empíricas demonstram que a série Qwen3-VL-Embedding alcança resultados de última geração em diversos benchmarks de avaliação de *embedding* multimodal. Especificamente, o Qwen3-VL-Embedding-8B atinge uma pontuação geral de 77,8 no MMEB-V2, ocupando o primeiro lugar entre todos os modelos (em 8 de janeiro de 2025). Este relatório apresenta a arquitetura, a metodologia de treinamento e as capacidades práticas da série, demonstrando sua eficácia em várias tarefas de recuperação multimodal, incluindo recuperação imagem-texto, resposta a perguntas visuais e correspondência vídeo-texto.
É introduzido um framework fotorealista e controlável para caricaturização 3D de rostos. Começamos com uma técnica de exagero de superfície baseada na curvatura Gaussiana intrínseca, que, quando acoplada à textura, tende a produzir renders excessivamente suavizados. Para resolver isso, recorremos ao *3D Gaussian Splatting* (3DGS), que recentemente demonstrou produzir *avatars* realistas em pontos de vista livres. Dada uma sequência multivista, extraímos uma malha FLAME, resolvemos uma equação de Poisson ponderada pela curvatura e obtemos a sua forma exagerada. No entanto, deformar os Gaussianos diretamente produz resultados insatisfatórios, tornando necessária a síntese de imagens-caricatura pseudo *ground-truth* através do *warping* de cada *frame* para a sua representação 2D exagerada usando transformações afins locais. Em seguida, concebemos um esquema de treino que alterna entre supervisão real e sintetizada, permitindo que uma única coleção de Gaussianos represente tanto *avatars* naturais quanto exagerados. Este esquema melhora a fidelidade, suporta edições locais e permite um controlo contínuo sobre a intensidade da caricatura. Para alcançar deformações em tempo real, é introduzida uma interpolação eficiente entre as superfícies original e exagerada. Analisamos e demonstramos ainda que esta tem um desvio limitado em relação a soluções de forma fechada. Tanto em avaliações quantitativas quanto qualitativas, os nossos resultados superam trabalhos anteriores, fornecendo *avatars* caricaturais fotorealistas e com controlo geométrico.
Os grandes modelos de linguagem (LLMs) frequentemente falham em aprender raciocínios eficazes de longas cadeias de pensamento (Long CoT) através da imitação de humanos ou de LLMs que não utilizam Long CoT. Para compreender este fenómeno, propomos que as trajetórias de Long CoT eficazes e aprendíveis apresentam, numa perspetiva unificada, estruturas estáveis semelhantes a moléculas, formadas por três tipos de interação: Raciocínio Profundo (semelhante a covalente), Autorreflexão (semelhante a ligação de hidrogénio) e Autoexploração (semelhante a van der Waals). A análise de trajetórias destiladas revela que estas estruturas emergem do fine-tuning com Long CoT, e não da imitação de palavras-chave. Introduzimos o conceito de Isómeros Semânticos Eficazes e demonstramos que apenas as ligações que promovem uma convergência rápida da entropia suportam uma aprendizagem estável de Long CoT, enquanto a competição estrutural prejudica o treino. Com base nestas descobertas, apresentamos o Mole-Syn, um método de grafo de transferência de distribuição que orienta a síntese de estruturas eficazes de Long CoT, melhorando o desempenho e a estabilidade do Aprendizagem por Reforço (RL) em vários benchmarks.
O aprendizado por reforço (RL) emergiu como uma técnica crítica para aprimorar agentes de busca profunda baseados em LLM. No entanto, as abordagens existentes dependem principalmente de recompensas binárias de resultado, que não conseguem capturar a abrangência e a factualidade do processo de raciocínio dos agentes, e frequentemente levam a comportamentos indesejáveis, como exploração de atalhos e alucinações. Para enfrentar essas limitações, propomos o Citation-aware Rubric Rewards (CaRR), um framework de recompensa refinado para agentes de busca profunda que enfatiza a abrangência do raciocínio, o embasamento factual e a conectividade das evidências. O CaRR decompõe questões complexas em rubricas verificáveis de salto único e exige que os agentes satisfaçam essas rubricas identificando explicitamente entidades ocultas, apoiando-as com citações corretas e construindo cadeias completas de evidências que se conectam à resposta prevista. Introduzimos ainda o Citation-aware Group Relative Policy Optimization (C-GRPO), que combina o CaRR e recompensas de resultado para treinar agentes de busca profunda robustos. Experimentos mostram que o C-GRPO supera consistentemente as linhas de base padrão de RL baseadas em resultado em múltiplos benchmarks de busca profunda. Nossa análise também valida que o C-GRPO desencoraja efetivamente a exploração de atalhos, promove um raciocínio abrangente e fundamentado em evidências, e exibe forte generalização para tarefas abertas de pesquisa profunda. Nosso código e dados estão disponíveis em https://github.com/THUDM/CaRR.
Espera-se que os grandes modelos de linguagem (LLMs) sejam treinados para atuar como agentes em diversos ambientes do mundo real, mas esse processo depende de ambientes de simulação (sandboxes) de interação com ferramentas ricos e variados. No entanto, o acesso a sistemas reais é frequentemente restrito; ambientes simulados por LLMs são propensos a alucinações e inconsistências; e sandboxes construídos manualmente são difíceis de escalar. Neste artigo, propomos o EnvScaler, uma estrutura automatizada para ambientes escaláveis de interação com ferramentas via síntese programática. O EnvScaler compreende dois componentes. Primeiro, o SkelBuilder constrói esqueletos de ambiente diversos através de mineração de tópicos, modelagem lógica e avaliação de qualidade. Em seguida, o ScenGenerator gera múltiplos cenários de tarefas e funções de validação de trajetória baseadas em regras para cada ambiente. Com o EnvScaler, sintetizamos 191 ambientes e cerca de 7 mil cenários, e aplicamo-los ao Ajuste Fino Supervisionado (SFT) e ao Aprendizado por Reforço (RL) para os modelos da série Qwen3. Os resultados em três benchmarks mostram que o EnvScaler melhora significativamente a capacidade dos LLMs de resolver tarefas em ambientes complexos envolvendo interações multi-turno e multi-ferramenta. Disponibilizamos nosso código e dados em https://github.com/RUC-NLPIR/EnvScaler.
Avanços recentes em modelos de linguagem de grande porte (LLMs) permitem sistemas agentes treinados com aprendizagem por reforço (RL) sobre trajetórias de interação multi-turno, mas a implantação prática é limitada por históricos textuais em rápido crescimento que inflacionam orçamentos de *tokens* e uso de memória. Apresentamos o AgentOCR, uma estrutura que explora a densidade de informação superior dos *tokens* visuais, representando o histórico acumulado de observação-ação como uma imagem renderizada compacta. Para tornar os *rollouts* multi-turno escaláveis, o AgentOCR propõe o cache óptico por segmentos. Ao decompor o histórico em segmentos *hashable* e manter um cache visual, este mecanismo elimina a re-renderização redundante. Para além da renderização fixa, o AgentOCR introduz a auto-compressão agentiva, na qual o agente emite ativamente uma taxa de compressão e é treinado com uma recompensa consciente da compressão para equilibrar adaptativamente o sucesso da tarefa e a eficiência de *tokens*. Realizamos experiências extensas em benchmarks agentes desafiadores, ALFWorld e QA baseado em pesquisa. Resultados notáveis demonstram que o AgentOCR preserva mais de 95% do desempenho do agente baseado em texto, reduzindo substancialmente o consumo de *tokens* (>50%), proporcionando eficiência consistente de *tokens* e memória. A nossa análise adicional valida uma aceleração de renderização de 20x proveniente do cache óptico por segmentos e o equilíbrio estratégico eficaz da auto-compressão.
Os agentes autônomos de aprendizagem de máquina revolucionaram a descoberta científica, mas permanecem limitados por um paradigma Gerar-Executar-Feedback. Abordagens anteriores sofrem de um severo Gargalo de Execução, pois a avaliação de hipóteses depende estritamente de execução física dispendiosa. Para contornar estas restrições físicas, internalizamos *priors* de execução para substituir verificações custosas em tempo de execução por raciocínio preditivo instantâneo, inspirando-nos em *World Models*. Neste trabalho, formalizamos a tarefa de Preferência de Solução Centrada em Dados e construímos um corpus abrangente de 18.438 comparações pareadas. Demonstramos que os LLMs exibem capacidades preditivas significativas quando preparados com um Relatório de Análise de Dados Verificado, atingindo 61,5% de precisão e uma calibração de confiança robusta. Por fim, instanciamos esta estrutura no FOREAGENT, um agente que emprega um ciclo Prever-para-Verificar, alcançando uma aceleração de 6x na convergência enquanto supera as *baselines* baseadas em execução em +6%. O nosso código e conjunto de dados estarão publicamente disponíveis em breve em https://github.com/zjunlp/predict-before-execute.
Os recentes avanços na geração de vídeo têm sido dominados por modelos de difusão e "flow-matching", que produzem resultados de alta qualidade, mas permanecem computacionalmente intensivos e de difícil escalabilidade. Neste trabalho, introduzimos o VideoAR, o primeiro framework Visual Autorregressivo (VAR) em larga escala para geração de vídeo, que combina a previsão de quadros seguintes em múltiplas escalas com a modelagem autorregressiva. O VideoAR separa as dependências espaciais e temporais através da integração da modelagem VAR intra-quadro com a previsão causal de quadros seguintes, suportada por um tokenizador 3D multi-escala que codifica eficientemente a dinâmica espaço-temporal. Para melhorar a consistência de longo prazo, propomos o Multi-scale Temporal RoPE, a Correção de Erros Trans-Quadros e o Mascaramento Aleatório de Quadros, que mitigam coletivamente a propagação de erros e estabilizam a coerência temporal. Nossa pipeline de pré-treinamento multiestágio alinha progressivamente o aprendizado espacial e temporal através de resoluções e durações crescentes. Empiricamente, o VideoAR alcança novos resultados de estado da arte entre os modelos autorregressivos, melhorando o FVD no UCF-101 de 99,5 para 88,6 enquanto reduz as etapas de inferência em mais de 10 vezes, e atingindo uma pontuação VBench de 81,74 – competitiva com modelos baseados em difusão uma ordem de grandeza maiores. Estes resultados demonstram que o VideoAR reduz a lacuna de desempenho entre os paradigmas autorregressivo e de difusão, oferecendo uma base escalável, eficiente e temporalmente consistente para futuras pesquisas em geração de vídeo.
O ajuste de preferências alinha modelos de linguagem pré-treinados aos julgamentos humanos de qualidade, utilidade ou segurança, otimizando com base em sinais explícitos de preferência em vez de apenas na verossimilhança. Trabalhos anteriores demonstraram que o ajuste de preferências degrada o desempenho e reduz a utilidade quando avaliado fora do domínio de treinamento. No entanto, a extensão em que as estratégias de adaptação mitigam essa mudança de domínio permanece inexplorada. Abordamos este desafio realizando um estudo abrangente e sistemático da generalização do alinhamento sob mudança de domínio. Comparamos cinco objetivos de alinhamento populares e várias estratégias de adaptação da fonte para o alvo, incluindo ajuste fino supervisionado no domínio-alvo e rotulagem por pseudo-alvos, em tarefas de sumarização e utilidade em resposta a perguntas. Nossos resultados revelam diferenças sistemáticas na generalização entre os objetivos de alinhamento sob mudança de domínio. Demonstramos que estratégias de adaptação baseadas em pseudo-rotulagem podem reduzir substancialmente a degradação por mudança de domínio.
À medida que os Modelos de Linguagem de Grande Porte (LLMs) são cada vez mais implantados em ambientes do mundo real, a correção por si só é insuficiente. Uma implantação confiável exige a manutenção de crenças verdadeiras sob perturbações contextuais. As avaliações existentes dependem amplamente de medidas pontuais de confiança, como a Auto-Consistência, que pode mascarar crenças frágeis. Demonstramos que mesmo fatos respondidos com auto-consistência perfeita podem colapsar rapidamente sob interferência contextual leve. Para colmatar esta lacuna, propomos a Crença de Consistência de Vizinhança (NCB), uma medida estrutural da robustez da crença que avalia a coerência da resposta em toda uma vizinhança conceptual. Para validar a eficiência do NCB, introduzimos um novo protocolo de teste de stress cognitivo que analisa a estabilidade das saídas sob interferência contextual. Experiências com vários LLMs mostram que o desempenho dos dados com NCB elevado é relativamente mais resistente à interferência. Por fim, apresentamos o Treino com Consciência Estrutural (SAT), que otimiza a estrutura de crença invariante ao contexto e reduz a fragilidade do conhecimento de cauda longa em aproximadamente 30%. O código estará disponível em https://github.com/zjunlp/belief.
Os recentes avanços na geração de vídeo permitiram o desenvolvimento de "modelos de mundo" capazes de simular futuros potenciais para robótica e planeamento. No entanto, especificar objetivos precisos para estes modelos continua a ser um desafio; as instruções em texto são frequentemente demasiado abstratas para captar nuances físicas, enquanto as imagens-alvo são muitas vezes inviáveis de especificar para tarefas dinâmicas. Para resolver isto, introduzimos o Goal Force, uma nova estrutura que permite aos utilizadores definir objetivos através de vetores de força explícitos e dinâmicas intermédias, espelhando a forma como os humanos conceptualizam tarefas físicas. Treinamos um modelo de geração de vídeo num conjunto de dados curado de primitivas causais sintéticas—como colisões elásticas e dominós a cair—ensinando-o a propagar forças no tempo e no espaço. Apesar de ter sido treinado com dados de física simples, o nosso modelo exibe uma notável generalização zero-shot para cenários complexos do mundo real, incluindo manipulação de ferramentas e cadeias causais multiobjeto. Os nossos resultados sugerem que, ao fundamentar a geração de vídeo em interações físicas fundamentais, os modelos podem emergir como simuladores de física neural implícitos, permitindo um planeamento preciso e consciente da física sem depender de motores externos. Disponibilizamos todos os conjuntos de dados, código, pesos do modelo e demonstrações de vídeo interativas na nossa página do projeto.
Os grandes modelos de linguagem passaram por uma rápida evolução, emergindo como uma tecnologia pivotal para a inteligência nas operações financeiras. No entanto, os benchmarks existentes são frequentemente limitados por armadilhas como a dependência de amostras simuladas ou de uso geral e um foco em cenários estáticos offline e singulares. Consequentemente, eles falham em se alinhar com os requisitos de autenticidade e capacidade de resposta em tempo real dos serviços financeiros, levando a uma discrepância significativa entre o desempenho no benchmark e a eficácia operacional real. Para resolver isso, apresentamos o BizFinBench.v2, o primeiro benchmark de avaliação em larga escala baseado em dados empresariais autênticos dos mercados acionários chinês e norte-americano, integrando avaliação online. Realizamos uma análise de clusterização em consultas de usuários reais de plataformas financeiras, resultando em oito tarefas fundamentais e duas tarefas online abrangendo quatro cenários de negócios centrais, totalizando 29.578 pares de perguntas e respostas de nível especialista. Os resultados experimentais demonstram que o ChatGPT-5 alcança uma proeminente precisão de 61,5% nas tarefas principais, embora uma lacuna substancial em relação aos especialistas financeiros persista; nas tarefas online, o DeepSeek-R1 supera todos os outros LLMs comerciais. A análise de erros identifica ainda as deficiências específicas de capacidade dos modelos existentes dentro de contextos práticos de negócios financeiros. O BizFinBench.v2 transcende as limitações dos benchmarks atuais, alcançando uma desconstrução em nível de negócio das capacidades financeiras dos LLMs e fornecendo uma base precisa para avaliar a eficácia na implantação generalizada de LLMs dentro do domínio financeiro. Os dados e o código estão disponíveis em https://github.com/HiThink-Research/BizFinBench.v2.
A estimação de profundidade monocular visa recuperar a informação de profundidade de cenas 3D a partir de imagens 2D. Trabalhos recentes têm feito progressos significativos, mas a sua dependência de conjuntos de dados de grande escala e decodificadores complexos tem limitado a sua eficiência e capacidade de generalização. Neste artigo, propomos uma estrutura leve e centrada em dados para estimação de profundidade monocular *zero-shot*. Primeiro, adotamos o DINOv3 como codificador visual para obter características densas de alta qualidade. Em segundo lugar, para superar as desvantagens inerentes à estrutura complexa do DPT, concebemos o *Simple Depth Transformer* (SDT), um decodificador compacto baseado em *transformers*. Em comparação com o DPT, ele utiliza um processo de fusão de características e *upsampling* de caminho único para reduzir a sobrecarga computacional da fusão de características multi-escala, alcançando maior precisão enquanto reduz o número de parâmetros em aproximadamente 85%-89%. Além disso, propomos uma estratégia de filtragem baseada em qualidade para filtrar amostras prejudiciais, reduzindo assim o tamanho do conjunto de dados enquanto melhora a qualidade geral do treinamento. Experimentos extensivos em cinco *benchmarks* demonstram que a nossa estrutura supera o DPT em precisão. Este trabalho destaca a importância de equilibrar o design do modelo e a qualidade dos dados para alcançar uma estimação de profundidade *zero-shot* eficiente e generalizável. Código: https://github.com/AIGeeksGroup/AnyDepth. Website: https://aigeeksgroup.github.io/AnyDepth.
Os grandes modelos de linguagem (LLMs) têm sido amplamente aplicados em diversos domínios das finanças. Uma vez que os seus dados de treino são maioritariamente derivados de corpora produzidos por humanos, os LLMs podem herdar uma série de vieses humanos. Vieses comportamentais podem levar a instabilidade e incerteza na tomada de decisões, particularmente durante o processamento de informação financeira. No entanto, a investigação existente sobre vieses em LLMs tem-se focado principalmente em questionamento direto ou em configurações simplificadas e de propósito geral, com uma consideração limitada dos ambientes financeiros complexos do mundo real e das tarefas de deteção de desinformação financeira multilingue, sensível ao contexto e de alto risco. Neste trabalho, propomos o \mfmdscen, um benchmark abrangente para avaliar vieses comportamentais de LLMs em tarefas de deteção de desinformação financeira multilingue através de diversos cenários económicos. Em colaboração com especialistas financeiros, construímos três tipos de cenários financeiros complexos: (i) baseados em papel (role) e personalidade, (ii) baseados em papel e região, e (iii) cenários baseados em papel que incorporam etnia e crenças religiosas. Desenvolvemos ainda um conjunto de dados multilingue de desinformação financeira que abrange Inglês, Chinês, Grego e Bengali. Ao integrar estes cenários com alegações de desinformação, o \mfmdscen permite uma avaliação sistemática de 22 LLMs mainstream. As nossas conclusões revelam que vieses comportamentais pronunciados persistem tanto em modelos comerciais como de código aberto. Este projeto estará disponível em https://github.com/lzw108/FMD.
Os agentes de busca baseados em modelos de linguagem de grande escala (LLM) têm se mostrado promissores para resolver problemas que demandam grande conhecimento, incorporando capacidades de recuperação de informação. Os trabalhos existentes concentram-se principalmente na otimização dos paradigmas de raciocínio dos agentes de busca, enquanto a qualidade das consultas de busca intermediárias durante o raciocínio permanece negligenciada. Como resultado, as consultas geradas frequentemente permanecem imprecisas, levando a resultados de recuperação inesperados e, por fim, limitando a eficácia geral dos agentes de busca. Para mitigar este problema, introduzimos o SmartSearch, uma estrutura construída sobre dois mecanismos-chave: (1) Recompensas de processo, que fornecem supervisão refinada para a qualidade de cada consulta de busca intermediária através da Avaliação de Crédito de Duplo Nível. (2) Refinamento de consulta, que promove a otimização da geração de consultas, refinando seletivamente consultas de busca de baixa qualidade e regenerando rodadas de busca subsequentes com base nestes refinamentos. Para permitir que o agente de busca internalize progressivamente a capacidade de melhorar a qualidade da consulta sob a orientação das recompensas de processo, projetamos uma estrutura de aprendizagem curricular em três estágios. Esta estrutura guia o agente através de uma progressão que vai da imitação, para o alinhamento, e finalmente para a generalização. Resultados experimentais mostram que o SmartSearch supera consistentemente as linhas de base existentes, e análises quantitativas adicionais confirmam ainda mais seus ganhos significativos tanto na eficiência da busca quanto na qualidade das consultas. O código está disponível em https://github.com/MYVAE/SmartSearch.
Este trabalho apresenta o Orient Anything V2, um modelo de base aprimorado para a compreensão unificada da orientação e rotação 3D de objetos a partir de imagens únicas ou emparelhadas. Com base no Orient Anything V1, que define a orientação através de uma única face frontal única, a versão V2 estende esta capacidade para lidar com objetos com diversas simetrias rotacionais e estimar diretamente rotações relativas. Essas melhorias são possibilitadas por quatro inovações principais: 1) Ativos 3D escaláveis sintetizados por modelos generativos, garantindo ampla cobertura de categorias e distribuição balanceada de dados; 2) Um sistema de anotação eficiente, com modelo em *loop*, que identifica de forma robusta de 0 a N faces frontais válidas para cada objeto; 3) Um objetivo de ajuste de distribuição periódica e consciente da simetria, que captura todas as orientações frontais plausíveis, modelando efetivamente a simetria rotacional do objeto; 4) Uma arquitetura multiframe que prevê diretamente as rotações relativas do objeto. Experimentos extensivos mostram que o Orient Anything V2 alcança desempenho *zero-shot* state-of-the-art em estimativa de orientação, estimativa de pose 6DoF e reconhecimento de simetria de objetos em 11 *benchmarks* amplamente utilizados. O modelo demonstra forte generalização, ampliando significativamente a aplicabilidade da estimativa de orientação em diversas tarefas subsequentes.
Os modelos de linguagem de grande porte (LLMs) aumentados por busca destacam-se em tarefas intensivas em conhecimento ao integrar recuperação externa. No entanto, eles frequentemente realizam buscas excessivas – invocando desnecessariamente a ferramenta de busca mesmo quando isso não melhora a qualidade da resposta, o que leva a ineficiência computacional e alucinações pela incorporação de contexto irrelevante. Neste trabalho, realizamos uma avaliação sistemática da busca excessiva em múltiplas dimensões, incluindo tipos de consulta, categorias de modelo, condições de recuperação e conversas multiturno. Nossas descobertas mostram: (i) a busca geralmente melhora a precisão da resposta em consultas respondíveis, mas prejudica a abstenção em consultas irrespondíveis; (ii) a busca excessiva é mais pronunciada em modelos de raciocínio complexo e sistemas de pesquisa profunda, é exacerbada por recuperação ruidosa e se acumula ao longo das interações em conversas multiturno; e (iii) a composição da evidência recuperada é crucial, pois a presença de evidência negativa melhora a abstenção. Para quantificar a busca excessiva, introduzimos Tokens por Correção (TPC), uma métrica de avaliação que captura o compromisso entre desempenho e custo para LLMs aumentados por busca. Por fim, investigamos abordagens de mitigação tanto em nível de consulta quanto de recuperação e disponibilizamos o OverSearchQA para fomentar pesquisas contínuas sobre LLMs aumentados por busca eficientes.
Os Sistemas Multiagente (MAS) tornaram-se um paradigma poderoso para a construção de aplicações inteligentes de alto desempenho. Nestes sistemas, o roteador responsável por determinar quais agentes especialistas devem processar uma determinada consulta desempenha um papel crucial no desempenho global. As estratégias de roteamento existentes geralmente dividem-se em duas categorias: roteamento por desempenho, que equilibra latência e custo entre modelos de diferentes tamanhos, e roteamento por tarefa, que atribui consultas a especialistas de domínio específico para melhorar a precisão. Em aplicações empresariais do mundo real, o roteamento por tarefa é mais adequado; no entanto, a maioria das abordagens existentes depende de decisões estáticas de rótulo único, o que introduz duas limitações principais: (i) dificuldade em integrar perfeitamente novos agentes à medida que os domínios de negócio se expandem e (ii) conflitos de roteamento causados pela sobreposição de capacidades dos agentes, degradando, em última instância, a precisão e a robustez. Para enfrentar estes desafios, propomos o TCAndon-Router (TCAR): um roteador de raciocínio adaptativo para colaboração multiagente. Ao contrário dos roteadores tradicionais, o TCAR suporta a integração dinâmica de agentes e gera primeiro uma cadeia de raciocínio em linguagem natural antes de prever um conjunto de agentes candidatos capazes de processar a consulta. Adicionalmente, concebemos um pipeline de execução colaborativa no qual os agentes selecionados produzem respostas de forma independente, as quais são depois agregadas e refinadas numa única resposta de alta qualidade por um Agente de Refinamento dedicado. Experiências em conjuntos de dados públicos e dados empresariais reais demonstram que o TCAR melhora significativamente a precisão do roteamento, reduz conflitos de roteamento e mantém-se robusto em cenários ambíguos. Disponibilizámos o TCAR em https://huggingface.co/tencent/TCAndon-Router para apoiar futuras investigações sobre roteamento multiagente explicável e colaborativo.
O Mixture-of-Experts (MoE) tornou-se um paradigma proeminente para a escalagem de Large Language Models (LLMs). O *fine-tuning* eficiente em parâmetros (PEFT), como o LoRA, é amplamente adotado para adaptar LLMs MoE pré-treinados a tarefas específicas. No entanto, as abordagens existentes atribuem *ranks* idênticos de LoRA a todos os *experts*, ignorando a especialização funcional intrínseca nos LLMs MoE. Esta alocação uniforme resulta em um descompasso de recursos: *experts* relevantes para a tarefa ficam subdimensionados, enquanto os menos relevantes recebem parâmetros redundantes. Propomos uma estrutura LoRA de *Rank* Dinâmico, denominada DR-LoRA, que aumenta dinamicamente os *ranks* do LoRA dos *experts* durante o *fine-tuning* com base nas demandas específicas da tarefa. O DR-LoRA emprega um mecanismo de Pontuação de Salência do *Expert* que integra a frequência de roteamento do *expert* e a importância do *rank* do LoRA para quantificar a demanda de cada *expert* por capacidade adicional. *Experts* com pontuações de salência mais altas são priorizados para expansão de *rank*, permitindo a formação automática de uma distribuição heterogênea de *ranks* personalizada para a tarefa-alvo. Experimentos em vários *benchmarks* demonstram que o DR-LoRA supera consistentemente o LoRA padrão e as estratégias de alocação estática sob o mesmo orçamento de parâmetros, alcançando desempenho superior na tarefa com uma utilização de parâmetros mais eficiente.
Os grandes modelos de linguagem (LLMs) estão cada vez mais sendo implantados como agentes inteligentes que raciocinam, planejam e interagem com seus ambientes. Para escalar efetivamente para cenários de longo horizonte, uma capacidade fundamental para tais agentes é um mecanismo de memória que possa reter, organizar e recuperar experiências passadas para apoiar a tomada de decisão subsequente. No entanto, a maioria das abordagens existentes organiza e armazena memórias de forma plana e depende de técnicas simples de recuperação baseadas em similaridade. Mesmo quando a memória estruturada é introduzida, os métodos existentes frequentemente lutam para capturar explicitamente as relações lógicas entre experiências ou unidades de memória. Além disso, o acesso à memória está amplamente dissociado da estrutura construída e ainda depende de uma recuperação semântica superficial, impedindo que os agentes raciocinem logicamente sobre dependências de longo horizonte. Neste trabalho, propomos o CompassMem, uma estrutura de memória centrada em eventos inspirada na Teoria da Segmentação de Eventos. O CompassMem organiza a memória como um Grafo de Eventos, segmentando incrementalmente as experiências em eventos e vinculando-os através de relações lógicas explícitas. Este grafo serve como um mapa lógico, permitindo que os agentes realizem uma navegação estruturada e orientada a objetivos sobre a memória, indo além da recuperação superficial, e reunindo progressivamente memórias valiosas para apoiar o raciocínio de longo horizonte. Experimentos no LoCoMo e no NarrativeQA demonstram que o CompassMem melhora consistentemente o desempenho tanto de recuperação quanto de raciocínio em vários modelos de base.
Os recentes avanços nos Grandes Modelos de Linguagem (LLMs) posicionaram-nos como um paradigma promissor para agentes, com o planeamento de longo prazo e a tomada de decisão a emergirem como capacidades de propósito central essenciais para a adaptação a diversos cenários e tarefas. Os jogos de estratégia em tempo real (RTS) servem como um campo de testes ideal para avaliar estas duas capacidades, uma vez que a sua jogabilidade inerente requer tanto um planeamento estratégico a nível macro como uma adaptação tática e execução de ações a nível micro. Os ambientes existentes baseados em jogos RTS ou padecem de exigências computacionais relativamente elevadas ou carecem de suporte para observações textuais, o que tem limitado a utilização de jogos RTS para avaliação de LLMs. Motivados por isto, apresentamos o TowerMind, um novo ambiente baseado no subgénero de jogos RTS de defesa de torres (TD). O TowerMind preserva os pontos fortes chave de avaliação dos jogos RTS para avaliar LLMs, ao mesmo tempo que apresenta baixas exigências computacionais e um espaço de observação multimodal, incluindo representações baseadas em píxeis, textuais e estruturadas do estado do jogo. Adicionalmente, o TowerMind suporta a avaliação de alucinações do modelo e oferece um alto grau de personalização. Concebemos cinco níveis de referência para avaliar vários LLMs amplamente utilizados sob diferentes configurações de entrada multimodal. Os resultados revelam uma clara diferença de desempenho entre os LLMs e os especialistas humanos, tanto nas dimensões de capacidade como de alucinação. As experiências destacam ainda limitações-chave no comportamento dos LLMs, como uma validação de planeamento inadequada, uma falta de multifinalidade na tomada de decisão e uma utilização ineficiente de ações. Avaliamos também dois algoritmos clássicos de aprendizagem por reforço: Ape-X DQN e PPO. Ao oferecer um design leve e multimodal, o TowerMind complementa a paisagem existente de ambientes baseados em jogos RTS e introduz um novo benchmark para o campo dos agentes de IA. O código fonte está publicamente disponível no GitHub (https://github.com/tb6147877/TowerMind).
O alinhamento da inteligência artificial (IA) engloba o problema normativo de especificar como os sistemas de IA devem agir e o problema técnico de garantir que esses sistemas cumpram essas especificações. Até o momento, o alinhamento da IA geralmente negligenciou uma importante fonte de conhecimento e prática para lidar com esses problemas: o direito. Neste artigo, pretendemos preencher essa lacuna explorando como regras, princípios e métodos jurídicos podem ser aproveitados para abordar problemas de alinhamento e informar o projeto de sistemas de IA que operem de forma segura e ética. Este campo emergente – o *alinhamento legal* – concentra-se em três direções de pesquisa: (1) projetar sistemas de IA para cumprir o conteúdo das regras jurídicas desenvolvidas por meio de instituições e processos legítimos, (2) adaptar métodos da interpretação jurídica para orientar como os sistemas de IA raciocinam e tomam decisões, e (3) aproveitar conceitos jurídicos como um modelo estrutural para enfrentar os desafios de confiabilidade, confiança e cooperação em sistemas de IA. Essas direções de pesquisa apresentam novas questões conceituais, empíricas e institucionais, que incluem examinar o conjunto específico de leis que determinados sistemas de IA devem seguir, criar avaliações para verificar sua conformidade legal em contextos do mundo real e desenvolver estruturas de governança para apoiar a implementação prática do alinhamento legal. Enfrentar essas questões requer expertise em direito, ciência da computação e outras disciplinas, oferecendo a essas comunidades a oportunidade de colaborar no projeto de uma IA para o bem.
À medida que os modelos generativos se tornam ubíquos, surge uma necessidade crítica de controlo granular sobre o processo de geração. No entanto, embora os métodos de geração controlada, desde o *prompting* até ao *fine-tuning*, proliferem, uma questão fundamental permanece sem resposta: serão estes modelos verdadeiramente controláveis? Neste trabalho, propomos um quadro teórico para responder formalmente a esta questão. Enquadrando a interação humano-modelo como um processo de controlo, propomos um novo algoritmo para estimar os conjuntos controláveis dos modelos num contexto de diálogo. De forma notável, fornecemos garantias formais sobre o erro de estimativa em função da complexidade da amostra: derivamos limites provavelmente aproximadamente corretos para as estimativas do conjunto controlável que são independentes da distribuição, não empregam quaisquer pressupostos exceto a limitação da saída e funcionam para qualquer sistema de controlo não linear de caixa negra (ou seja, qualquer modelo generativo). Demonstramos empiricamente o quadro teórico em diferentes tarefas de controlo de processos de diálogo, tanto para modelos de linguagem como para geração de texto para imagem. Os nossos resultados mostram que a controlabilidade do modelo é surpreendentemente frágil e altamente dependente do contexto experimental. Isto realça a necessidade de uma análise rigorosa da controlabilidade, deslocando o foco de simplesmente tentar controlar para primeiro compreender os seus limites fundamentais.
Os recentes avanços no Aprendizado por Reforço com Recompensas Verificáveis (RLVR) para o raciocínio de Modelos de Linguagem de Grande Porte (LLMs) têm sido dificultados por um desafio persistente: o colapso da exploração. A homogeneidade semântica das simulações estocásticas frequentemente prende os modelos em comportamentos estreitos e superotimizados. Embora os métodos existentes utilizem a entropia da política para incentivar a exploração, eles enfrentam limitações inerentes. A regularização da entropia global é suscetível à deturpação de recompensas, o que pode induzir verbosidade sem sentido, enquanto as atualizações locais seletivas por token lutam com o forte viés indutivo dos modelos pré-treinados. Para resolver isso, propomos a Otimização de Política Latente via Gargalo de Informação Iterativo (IIB-LPO), uma nova abordagem que desloca a exploração da perturbação estatística das distribuições de tokens para o ramificação topológica de trajetórias de raciocínio. O IIB-LPO aciona a ramificação latente em estados de alta entropia para diversificar os caminhos de raciocínio e emprega o princípio do Gargalo de Informação tanto como um filtro de trajetória quanto como um mecanismo de autorrecompensa, garantindo uma exploração concisa e informativa. Resultados empíricos em quatro benchmarks de raciocínio matemático demonstram que o IIB-LPO alcança desempenho de ponta, superando métodos anteriores por margens de até 5,3% em precisão e 7,4% em métricas de diversidade.
A África abriga mais de um terço dos idiomas do mundo, mas continua sub-representada na pesquisa em IA. Apresentamos o Afri-MCQA, o primeiro benchmark de Perguntas e Respostas de Cunho Cultural e Multilíngue, abrangendo 7,5 mil pares de perguntas e respostas em 15 línguas africanas de 12 países. O benchmark oferece pares de perguntas e respostas paralelos em inglês e línguas africanas através das modalidades de texto e fala e foi inteiramente criado por falantes nativos. A avaliação de modelos de linguagem de grande escala (LLMs) no Afri-MCQA mostra que os modelos de pesos abertos têm um desempenho fraco em todas as culturas avaliadas, com precisão próxima de zero em VQA de resposta aberta quando consultados na língua nativa ou por fala. Para avaliar a competência linguística, incluímos experimentos de controle destinados a avaliar este aspeto específico, separado do conhecimento cultural, e observamos lacunas de desempenho significativas entre as línguas nativas e o inglês, tanto para texto como para fala. Estas descobertas ressaltam a necessidade de abordagens centradas na fala, de pré-treinamento fundamentado culturalmente e de transferência cultural cross-lingual. Para apoiar um desenvolvimento de IA multimodal mais inclusivo nas línguas africanas, disponibilizamos o nosso Afri-MCQA sob licença académica ou CC BY-NC 4.0 no HuggingFace (https://huggingface.co/datasets/Atnafu/Afri-MCQA).
A Avaliação da Qualidade de Imagens de Rosto (FIQA) é essencial para sistemas confiáveis de reconhecimento facial. As abordagens atuais exploram principalmente apenas representações da camada final, enquanto métodos sem treinamento exigem múltiplas passagens diretas ou retropropagação. Propomos o ViTNT-FIQA, uma abordagem sem treinamento que mede a estabilidade da evolução dos *embeddings* de *patches* através dos blocos intermediários do *Vision Transformer* (ViT). Demonstramos que imagens faciais de alta qualidade exibem trajetórias de refinamento de características estáveis entre os blocos, enquanto imagens degradadas mostram transformações erráticas. Nosso método calcula distâncias euclidianas entre os *embeddings* de *patches* normalizados por L2 de blocos consecutivos do *transformer* e os agrega em escores de qualidade a nível de imagem. Validamos empiricamente esta correlação num conjunto de dados sintético com rótulos de qualidade e níveis controlados de degradação. Diferente das abordagens sem treinamento existentes, o ViTNT-FIQA requer apenas uma única passagem direta, sem retropropagação ou modificações arquiteturais. Através de avaliação extensiva em oito *benchmarks* (LFW, AgeDB-30, CFP-FP, CALFW, Adience, CPLFW, XQLFW, IJB-C), mostramos que o ViTNT-FIQA alcança desempenho competitivo com os métodos estado da arte, mantendo eficiência computacional e aplicabilidade imediata a qualquer modelo de reconhecimento facial pré-treinado baseado em ViT.
Propomos uma estrutura que amortiza o custo do raciocínio em tempo de inferência, convertendo críticas transitórias em diretrizes recuperáveis, por meio de um sistema de memória baseado em arquivos e chamadas de ferramentas controladas por agentes. Avaliamos este método no Rubric Feedback Bench, um novo conjunto de dados para aprendizagem baseada em rubricas. Experimentos demonstram que nossos LLMs aumentados atingem rapidamente o desempenho de pipelines de refinamento em tempo de teste, reduzindo drasticamente o custo de inferência.
A conclusão multimodal em tempo real é essencial para assistentes digitais, chatbots, ferramentas de design e consultas de saúde, onde as entradas do usuário dependem de um contexto visual compartilhado. Apresentamos a Conclusão Automática Multimodal (MAC), uma tarefa que prevê os próximos caracteres em chats ao vivo usando texto parcialmente digitado e pistas visuais. Diferente da conclusão automática tradicional baseada apenas em texto (TAC), a MAC ancora as previsões no contexto multimodal para capturar melhor a intenção do usuário. Para viabilizar esta tarefa, adaptamos o MMDialog e o ImageChat para criar conjuntos de dados de referência. Avaliamos modelos líderes de visão e linguagem (VLMs) em comparação com fortes linhas de base textuais, destacando os compromissos entre precisão e eficiência. Apresentamos o Router-Suggest, uma estrutura de roteamento que seleciona dinamicamente entre modelos textuais e VLMs com base no contexto do diálogo, juntamente com uma variante leve para ambientes com recursos limitados. O Router-Suggest alcança uma aceleração de 2,3x a 10x em relação ao VLM de melhor desempenho. Um estudo com usuários mostra que os VLMs superam significativamente os modelos textuais em satisfação do usuário, notadamente economizando esforço de digitação e melhorando a qualidade das conclusões em conversas multi-turno. Essas descobertas reforçam a necessidade do contexto multimodal nas conclusões automáticas, levando a assistentes mais inteligentes e conscientes do usuário.
A condicionamento de persona pode ser visto como um *prior* comportamental para modelos de linguagem grandes (LLMs) e frequentemente assume-se que confere expertise e melhora a segurança de forma monotônica. No entanto, os seus efeitos na tomada de decisões clínicas de alto risco permanecem pouco caracterizados. Nós avaliamos sistematicamente o controle baseado em persona em LLMs clínicos, examinando como funções profissionais (por exemplo, médico do Departamento de Emergência, enfermeiro) e estilos de interação (ousado vs. cauteloso) influenciam o comportamento entre modelos e tarefas médicas. Avaliamos o desempenho em tarefas de triagem clínica e de segurança do paciente usando avaliações multidimensionais que capturam a precisão da tarefa, calibração e comportamento de risco relevante para a segurança. Encontramos efeitos sistemáticos, dependentes do contexto e não monotônicos: Personas médicas melhoram o desempenho em tarefas de cuidados críticos, resultando em ganhos de até ~+20% em precisão e calibração, mas degradam o desempenho em contextos de cuidados primários por margens comparáveis. O estilo de interação modula a propensão e a sensibilidade ao risco, mas é altamente dependente do modelo. Embora as classificações agregadas do juiz-LLM favoreçam personas médicas em vez de não médicas em casos críticos de segurança, descobrimos que clínicos humanos mostram concordância moderada na conformidade de segurança (κ de Cohen médio = 0,43), mas indicam baixa confiança em 95,9% das suas respostas sobre a qualidade do raciocínio. O nosso trabalho mostra que as personas funcionam como *priors* comportamentais que introduzem trade-offs dependentes do contexto, em vez de garantias de segurança ou expertise. O código está disponível em https://github.com/rsinghlab/Persona\_Paradox.