Artigos de pesquisa em IA selecionados diariamente com traduções
Os grandes modelos de raciocínio demonstraram fortes capacidades de resolução de problemas, mas as tarefas do mundo real frequentemente exigem ferramentas externas e interações de longo horizonte. As estruturas de agentes existentes geralmente seguem fluxos de trabalho predefinidos, o que limita a conclusão autônoma e global de tarefas. Neste artigo, introduzimos o DeepAgent, um agente de raciocínio profundo de ponta a ponta que realiza pensamento autônomo, descoberta de ferramentas e execução de ações dentro de um único processo de raciocínio coerente. Para enfrentar os desafios das interações de longo horizonte, particularmente a explosão no comprimento do contexto devido a múltiplas chamadas de ferramentas e o acúmulo de histórico de interações, introduzimos um mecanismo autônomo de dobramento de memória que comprime interações passadas em memórias estruturadas episódicas, de trabalho e de ferramentas, reduzindo o acúmulo de erros enquanto preserva informações críticas. Para ensinar o uso de ferramentas de propósito geral de forma eficiente e estável, desenvolvemos uma estratégia de aprendizado por reforço de ponta a ponta, denominada ToolPO, que aproveita APIs simuladas por LLM e aplica atribuição de vantagem em chamadas de ferramentas para atribuir crédito refinado aos tokens de invocação de ferramentas. Extensivos experimentos em oito benchmarks, incluindo tarefas de uso geral de ferramentas (ToolBench, API-Bank, TMDB, Spotify, ToolHop) e aplicações downstream (ALFWorld, WebShop, GAIA, HLE), demonstram que o DeepAgent supera consistentemente as linhas de base em ambos os cenários de recuperação de ferramentas rotuladas e de conjunto aberto. Este trabalho dá um passo em direção a agentes mais gerais e capazes para aplicações do mundo real. O código e a demonstração estão disponíveis em https://github.com/RUC-NLPIR/DeepAgent.
Os modelos de raciocínio de ponta têm demonstrado capacidades incríveis em uma ampla gama de disciplinas, impulsionados pelo pós-treinamento de grandes modelos de linguagem (LLMs) com aprendizado por reforço (RL). No entanto, apesar do sucesso generalizado deste paradigma, grande parte da literatura tem se dedicado a desvendar comportamentos verdadeiramente novos que emergem durante o RL, mas que não estão presentes nos modelos base. Em nosso trabalho, abordamos esta questão de um ângulo diferente, questionando, em vez disso, se capacidades de raciocínio comparáveis podem ser eliciadas dos modelos base no momento da inferência por meio de amostragem pura, sem qualquer treinamento adicional. Inspirados pelas técnicas de Monte Carlo via Cadeias de Markov (MCMC) para amostragem de distribuições afiadas, propomos um algoritmo de amostragem iterativo e simples que aproveita as próprias verossimilhanças dos modelos base. Em diferentes modelos base, mostramos que nosso algoritmo oferece ganhos substanciais no raciocínio que quase igualam e até superam aqueles obtidos com RL em uma ampla variedade de tarefas de etapa única, incluindo MATH500, HumanEval e GPQA. Além disso, nosso amostrador evita o colapso na diversidade ao longo de múltiplas amostras, que é característico do pós-treinamento com RL. Crucialmente, nosso método não requer treinamento, conjuntos de dados curados ou um verificador, sugerindo ampla aplicabilidade além de domínios facilmente verificáveis.
O controle semântico unificado e generalizável na geração de vídeos permanece um desafio aberto crítico. Os métodos existentes introduzem artefatos ao impor prioridades inadequadas baseadas em pixels a partir de controles estruturais, ou dependem de ajustes específicos não generalizáveis ou de arquiteturas especializadas por tarefa. Apresentamos o Video-As-Prompt (VAP), um novo paradigma que reformula este problema como geração contextual. O VAP utiliza um vídeo de referência como prompt semântico direto, orientando um Video Diffusion Transformer (DiT) congelado através de um especialista *plug-and-play* Mixture-of-Transformers (MoT). Esta arquitetura previne o esquecimento catastrófico e é guiada por uma incorporação posicional com viés temporal que elimina prioridades de mapeamento espúrias para uma recuperação contextual robusta. Para viabilizar esta abordagem e catalisar pesquisas futuras, construímos o VAP-Data, o maior conjunto de dados para geração de vídeo controlada semanticamente, com mais de 100 mil vídeos pareados abrangendo 100 condições semânticas. Como um modelo único unificado, o VAP estabelece um novo estado da arte para métodos de código aberto, alcançando uma taxa de preferência do usuário de 38,7% que rivaliza com os principais modelos comerciais específicos por condição. A forte generalização *zero-shot* do VAP e seu suporte para várias aplicações *downstream* representam um avanço significativo rumo à geração de vídeo de propósito geral e controlável.
Nós enfrentamos o desafio de gerar mundos 3D infinitamente expansíveis – ambientes grandes e contínuos com geometria coerente e aparência realista. Os métodos existentes enfrentam desafios fundamentais: as abordagens baseadas em elevação 2D sofrem com inconsistências geométricas e de aparência entre diferentes vistas, as representações implícitas 3D são difíceis de escalar, e os modelos de fundação 3D atuais são majoritariamente centrados em objetos, limitando sua aplicabilidade na geração em nível de cena. Nossa principal percepção é alavancar fortes prioridades de geração de modelos 3D pré-treinados para a geração estruturada de blocos de cena. Para este fim, propomos o WorldGrow, uma estrutura hierárquica para síntese ilimitada de cenas 3D. Nosso método apresenta três componentes principais: (1) um pipeline de curadoria de dados que extrai blocos de cena de alta qualidade para treinamento, tornando as representações latentes estruturadas 3D adequadas para geração de cenas; (2) um mecanismo de preenchimento (*inpainting*) de blocos 3D que permite a extensão da cena com consciência contextual; e (3) uma estratégia de geração do coarse-para-fine que garante tanto a plausibilidade do layout global quanto a fidelidade geométrica/textural local. Avaliado no conjunto de dados 3D-FRONT em larga escala, o WorldGrow alcança desempenho estado da arte em reconstrução geométrica, enquanto suporta de forma única a geração infinita de cenas com resultados foto realistas e estruturalmente consistentes. Estes resultados destacam sua capacidade para construir ambientes virtuais em larga escala e o potencial para a construção de futuros modelos de mundo.
A falta de uma definição concreta para a Inteligência Geral Artificial (AGI) obscurece a lacuna entre a IA especializada atual e a cognição de nível humano. Este artigo introduz um quadro quantificável para abordar esta questão, definindo AGI como a correspondência com a versatilidade e proficiência cognitiva de um adulto bem-educado. Para operacionalizar esta definição, fundamentamos nossa metodologia na teoria Cattell-Horn-Carroll, o modelo de cognição humana mais validado empiricamente. O quadro decompõe a inteligência geral em dez domínios cognitivos centrais — incluindo raciocínio, memória e percepção — e adapta baterias psicométricas humanas consolidadas para avaliar sistemas de IA. A aplicação deste quadro revela um perfil cognitivo altamente "irregular" nos modelos contemporâneos. Embora proficientes em domínios intensivos em conhecimento, os sistemas de IA atuais apresentam déficits críticos na maquinaria cognitiva fundamental, particularmente no armazenamento de memória de longo prazo. As pontuações de AGI resultantes (por exemplo, GPT-4 em 27%, GPT-5 em 58%) quantificam concretamente tanto o progresso rápido quanto a lacuna substancial que ainda permanece antes da AGI.
O Group Relative Policy Optimization (GRPO) tem demonstrado um forte potencial para a geração de imagens a partir de texto (T2I) baseada em correspondência de fluxo (*flow matching*), mas enfrenta duas limitações principais: a atribuição imprecisa de vantagem e a negligência das dinâmicas temporais da geração. Neste trabalho, argumentamos que a mudança do paradigma de otimização do nível do passo para o nível do *chunk* pode aliviar eficazmente esses problemas. Com base nesta ideia, propomos o Chunk-GRPO, a primeira abordagem baseada em GRPO a nível de *chunk* para geração T2I. A perceção é agrupar passos consecutivos em *chunks* coerentes que capturam a dinâmica temporal intrínseca da correspondência de fluxo e otimizar as políticas a nível do *chunk*. Adicionalmente, introduzimos uma estratégia opcional de amostragem ponderada para melhorar ainda mais o desempenho. Experimentos extensivos mostram que o ChunkGRPO alcança resultados superiores tanto no alinhamento de preferências como na qualidade da imagem, destacando a promessa da otimização a nível de *chunk* para métodos baseados em GRPO.
Os modelos de difusão discreta emergiram como uma direção promissora para tarefas de visão computacional e linguagem, oferecendo modelagem de contexto bidirecional e paralelização teórica. No entanto, sua aplicação prática é severamente limitada por uma discrepância entre treinamento e inferência, que leva a cascatas catastróficas de erro: erros iniciais de token durante a decodificação paralela poluem o contexto de geração, desencadeando uma reação em cadeia de erros cumulativos e resultando em erros sintáticos e alucinações semânticas. Para enfrentar este desafio fundamental, reformulamos o processo de geração de uma desruídosão passiva para um refinamento ativo. Apresentamos o ReDiff, uma estrutura de difusão com refinamento aprimorado que ensina o modelo a identificar e corrigir seus próprios erros. Nossa abordagem apresenta um processo de treinamento em dois estágios: primeiro, incutimos uma capacidade de revisão fundamental treinando o modelo para revisar erros sintéticos; segundo, implementamos um novo ciclo de autocorreção online onde o modelo é explicitamente treinado para revisar seus próprios rascunhos com falhas, aprendendo com as correções de um especialista. Este aprendizado orientado por erros confere ao modelo a capacidade crucial de revisar e refinar sua saída já gerada, quebrando efetivamente a cascata de erros. Experimentos extensivos demonstram que o ReDiff melhora significativamente a coerência e a precisão factual do conteúdo gerado, permitindo uma geração paralela estável e eficiente muito superior aos métodos tradicionais de desruídosão. Nossos códigos e modelos estão disponíveis em https://rediff-hku.github.io/.
A escalabilidade do comprimento de contexto em grandes modelos de linguagem (LLMs) oferece benefícios significativos, mas é computacionalmente dispendiosa. Este custo deriva principalmente do mecanismo de autoatenção, cuja complexidade O(N²) em relação ao comprimento da sequência representa um grande garganto para memória e latência. Felizmente, a matriz de atenção é frequentemente esparsa, particularmente para sequências longas, sugerindo uma oportunidade de otimização. A atenção esparsa por blocos surgiu como uma solução promissora que particiona sequências em blocos e ignora a computação para um subconjunto desses blocos. No entanto, a eficácia deste método é altamente dependente dos padrões de atenção subjacentes, o que pode levar a uma esparsidade em nível de bloco subótima. Por exemplo, tokens-chave importantes para consultas dentro de um único bloco podem estar dispersos por inúmeros outros blocos, levando a redundância computacional. Neste trabalho, propomos a Permuted Block-Sparse Attention (PBS-Attn), um método plug-and-play que aproveita as propriedades de permutação da atenção para aumentar a esparsidade em nível de bloco e melhorar a eficiência computacional do pré-preenchimento de LLMs. Realizamos experimentos abrangentes em conjuntos de dados desafiadores do mundo real com contexto longo, demonstrando que a PBS-Attn supera consistentemente os métodos existentes de atenção esparsa por blocos em precisão do modelo e se aproxima muito da linha de base de atenção completa. Alimentado pelos nossos kernels personalizados de permuted-FlashAttention, a PBS-Attn alcança uma aceleração de ponta a ponta de até 2,75 vezes no pré-preenchimento de contexto longo, confirmando sua viabilidade prática. Código disponível em https://github.com/xinghaow99/pbs-attn.
A fundamentação de GUI, que mapeia instruções em linguagem natural para elementos de UI acionáveis, é uma capacidade central dos agentes de GUI. Trabalhos anteriores tratam majoritariamente as instruções como um proxy estático da intenção do usuário, negligenciando o impacto da diversidade e qualidade das instruções no desempenho da fundamentação. Através de uma investigação criteriosa dos conjuntos de dados de fundamentação existentes, descobrimos uma taxa de defeito de 23,3% em suas instruções e demonstramos que a exploração da diversidade de instruções durante a inferência proporciona uma melhoria de desempenho relativa de até 76%. Neste artigo, introduzimos o paradigma Instrução-como-Raciocínio, tratando as instruções como vias analíticas dinâmicas que oferecem perspectivas distintas e permitindo que o modelo selecione a via mais eficaz durante o raciocínio. Para alcançar isto, propomos um framework de treinamento em dois estágios: ajuste fino supervisionado (SFT) em instruções sintetizadas e diversificadas para incutir raciocínio multiperspectiva, seguido por aprendizado por reforço (RL) para otimizar a seleção e composição de vias. Nossos modelos resultantes, UI-Ins-7B e UI-Ins-32B, alcançam resultados state-of-the-art em cinco benchmarks desafiadores de fundamentação e exibem raciocínio emergente, compondo e sintetizando seletivamente novas vias de instrução durante a inferência. Em particular, o UI-Ins-32B atinge a melhor precisão de fundamentação, marcando 87,3% no UI-I2E-Bench, 57,0% no ScreenSpot-Pro e 84,9% no MMBench-GUI L2. Adicionalmente, nosso modelo demonstra forte potencial agencial, alcançando uma taxa de sucesso de 74,1% no AndroidWorld usando o UI-Ins-7B como executor. Nossa análise aprofundada revela insights adicionais, como a forma como o raciocínio pode ser formulado para melhorar, e não prejudicar, o desempenho da fundamentação, e como nosso método mitiga o colapso de política no framework SFT+RL. Todo o código e checkpoints dos modelos serão publicamente liberados em https://github.com/alibaba/UI-Ins.
Neste artigo, demonstramos que os modelos de difusão visual podem atuar como solucionadores geométricos eficazes: eles podem raciocinar diretamente sobre problemas geométricos operando no espaço de pixels. Primeiro, demonstramos isso no Problema do Quadrado Inscrito, um problema de longa data na geometria que questiona se toda curva de Jordan contém quatro pontos que formam um quadrado. Em seguida, estendemos a abordagem para outros dois problemas geométricos complexos conhecidos: o Problema da Árvore de Steiner e o Problema do Polígono Simples. Nosso método trata cada instância do problema como uma imagem e treina um modelo de difusão visual padrão que transforma ruído gaussiano em uma imagem representando uma solução aproximada válida que se aproxima da solução exata. O modelo aprende a transformar estruturas geométricas ruidosas em configurações corretas, reformulando efetivamente o raciocínio geométrico como geração de imagens. Diferente de trabalhos anteriores que necessitam de arquiteturas especializadas e adaptações específicas de domínio ao aplicar difusão a representações geométricas paramétricas, empregamos um modelo de difusão visual padrão que opera na representação visual do problema. Esta simplicidade destaca uma ponte surpreendente entre a modelagem generativa e a resolução de problemas geométricos. Para além dos problemas específicos aqui estudados, nossos resultados apontam para um paradigma mais amplo: operar no espaço de imagem fornece uma estrutura geral e prática para aproximar problemas notoriamente difíceis, e abre caminho para abordar uma classe muito mais ampla de tarefas geométricas desafiadoras.
Os Modelos de Linguagem de Grande Porte para Vídeo (VideoLLMs) estendem as capacidades dos modelos visão-linguagem para entradas espaço-temporais, permitindo tarefas como resposta a perguntas sobre vídeo (VideoQA). Apesar dos avanços recentes em VideoLLMs, os seus mecanismos internos sobre onde e como extraem e propagam informações de vídeo e textuais permanecem pouco explorados. Neste estudo, investigamos o fluxo interno de informação dos VideoLLMs usando técnicas de interpretabilidade mecanicista. A nossa análise revela padrões consistentes em diversas tarefas de VideoQA: (1) o raciocínio temporal nos VideoLLMs inicia-se com interações ativas entre frames nas camadas iniciais a intermédias, (2) seguidas por uma integração progressiva vídeo-linguagem nas camadas intermédias. Isto é facilitado pelo alinhamento entre as representações de vídeo e os *embeddings* linguísticos que contêm conceitos temporais. (3) Após a conclusão desta integração, o modelo está pronto para gerar respostas corretas nas camadas intermédias a finais. (4) Com base na nossa análise, mostramos que os VideoLLMs podem manter o seu desempenho em VideoQA selecionando estes caminhos de informação eficazes enquanto suprimem uma quantidade substancial de arestas de atenção, por exemplo, 58% no LLaVA-NeXT-7B-Video-FT. Estas descobertas fornecem um modelo sobre como os VideoLLMs realizam o raciocínio temporal e oferecem perspetivas práticas para melhorar a interpretabilidade do modelo e a generalização para tarefas subsequentes. A nossa página do projeto com o código fonte está disponível em https://map-the-flow.github.io.
A fusão de modelos é uma estratégia eficiente de pós-treinamento para integrar conhecimento de múltiplos *checkpoints* ajustados de um modelo base compartilhado. Os métodos existentes operam no espaço de parâmetros, combinando vetores de tarefa para mitigar conflitos, mas permanecem limitados por inconsistências paramétricas. Propomos as Âncoras Duais Funcionais (ADFs), uma estrutura que, em vez disso, modela o espaço de representação de entrada. As ADFs são entradas sintéticas cujos gradientes induzidos se alinham com os vetores de tarefa, capturando desvios funcionais específicos da tarefa em relação ao modelo pré-treinado. Esta perspectiva estabelece uma ponte entre o treinamento multitarefa conjunto e a fusão *pós-hoc*, oferecendo tanto robustez quanto flexibilidade. Introduzimos ainda um esquema de inicialização fundamentado e demonstramos que as ADFs são complementares à fusão de modelos no espaço de parâmetros. Experimentos abrangentes demonstram a eficácia das ADFs na fusão de modelos.
O design de prompts desempenha um papel crucial na geração de texto-para-vídeo (T2V), contudo, os prompts fornecidos pelos usuários são frequentemente curtos, não estruturados e desalinhados com os dados de treinamento, limitando o potencial generativo dos modelos T2V baseados em difusão. Apresentamos o RAPO++, uma estrutura de otimização de prompts em estágios cruzados que unifica o refinamento alinhado aos dados de treinamento, o escalonamento iterativo em tempo de teste e o ajuste fino de modelos de linguagem grande (LLM) para melhorar substancialmente a geração T2V sem modificar a espinha dorsal generativa subjacente. No Estágio 1, a Otimização de Prompt Aumentada por Recuperação (RAPO) enriquece os prompts do usuário com modificadores semanticamente relevantes recuperados de um grafo de relações e os refatora para corresponder às distribuições de treinamento, melhorando a composicionalidade e a fidelidade multiobjeto. O Estágio 2 introduz a Otimização de Prompt Específica por Amostra (SSPO), um mecanismo de circuito fechado que refina iterativamente os prompts usando feedback de múltiplas fontes – incluindo alinhamento semântico, fidelidade espacial, coerência temporal e sinais específicos de tarefa, como fluxo óptico – produzindo uma qualidade de geração de vídeo progressivamente melhorada. O Estágio 3 aproveita pares de prompts otimizados do SSPO para ajustar finamente o LLM reescritor, internalizando padrões de otimização específicos da tarefa e permitindo uma geração de prompts eficiente e de alta qualidade mesmo antes da inferência. Experimentos extensos em cinco modelos T2V state-of-the-art e cinco benchmarks demonstram que o RAPO++ alcança ganhos significativos em alinhamento semântico, raciocínio composicional, estabilidade temporal e plausibilidade física, superando os métodos existentes por grandes margens. Nossos resultados destacam o RAPO++ como uma solução agnóstica ao modelo, custo-eficiente e escalável que estabelece um novo padrão para otimização de prompts na geração T2V. O código está disponível em https://github.com/Vchitect/RAPO.
Revelamos que as representações internas em grandes modelos de linguagem (LLMs) servem como proxies confiáveis do conhecimento aprendido e propomos o RECALL, uma nova estrutura de fusão de modelos consciente da representação para aprendizado contínuo sem acesso a dados históricos. O RECALL calcula a similaridade inter-modelo a partir de representações ocultas em nível de camada sobre amostras típicas agrupadas e realiza uma fusão de parâmetros hierárquica e adaptativa para alinhar o conhecimento entre os modelos. Este projeto permite a preservação de características de domínio geral nas camadas superficiais, enquanto permite a adaptação específica da tarefa em camadas mais profundas. Diferente de métodos anteriores que exigem rótulos de tarefa ou incorrem em trade-offs de desempenho, o RECALL alcança uma integração multi-domínio contínua e uma forte resistência ao esquecimento catastrófico. Experimentos extensos em cinco tarefas de PLN e múltiplos cenários de aprendizado contínuo mostram que o RECALL supera as baselines tanto em retenção de conhecimento quanto em generalização, fornecendo uma solução escalável e livre de dados para a evolução de LLMs.
As métricas tradicionais de Recuperação de Informação (RI), como nDCG, MAP e MRR, partem do princípio de que os utilizadores humanos examinam documentos sequencialmente, com uma atenção decrescente para posições mais baixas no ranking. Esta premissa desfaz-se nos sistemas de Geração Aumentada por Recuperação (RAG), onde os resultados da pesquisa são consumidos por Modelos de Linguagem de Grande Escala (LLMs). Ao contrário dos humanos, os LLMs processam todos os documentos recuperados como um todo, e não sequencialmente. Adicionalmente, as métricas tradicionais de RI não consideram documentos relacionados mas irrelevantes que degradam ativamente a qualidade da geração, em vez de serem simplesmente ignorados. Devido a estes dois principais desalinhamentos — nomeadamente, o desconto posicional humano versus máquina e a relevância humana versus utilidade para a máquina — as métricas clássicas de RI não preveem com precisão o desempenho dos sistemas RAG. Introduzimos um esquema de anotação baseado em utilidade que quantifica tanto a contribuição positiva de passagens relevantes como o impacto negativo de passagens distractoras. Com base neste fundamento, propomos o UDCG (Ganho Cumulativo Consciente de Utilidade e Distração), uma métrica que utiliza um desconto posicional orientado a LLMs para otimizar diretamente a correlação com a precisão da resposta de ponta a ponta. Experiências em cinco conjuntos de dados e seis LLMs demonstram que o UDCG melhora a correlação em até 36% em comparação com as métricas tradicionais. O nosso trabalho representa um passo crítico para o alinhamento da avaliação de RI com os consumidores LLM e permite uma avaliação mais fiável dos componentes RAG.
Técnicas recentes como geração aumentada por recuperação ou raciocínio em cadeia de pensamento têm levado a contextos mais longos e ao aumento dos custos de inferência. As técnicas de compressão de contexto podem reduzir esses custos, mas as abordagens mais eficazes exigem o ajuste fino do modelo alvo ou até mesmo a modificação de sua arquitetura. Isso pode degradar suas habilidades gerais quando não utilizadas para esse propósito específico. Aqui exploramos uma abordagem alternativa: um codificador que comprime o contexto em representações contínuas que substituem os embeddings de tokens em LLMs decodificadores. Primeiro, realizamos um estudo sistemático de estratégias de treinamento e escolhas de arquitetura para o codificador. Nossas descobertas levaram ao projeto de um Compressor de Representações de Texto Adaptável, denominado ARC-Encoder, que produz x vezes menos representações contínuas (tipicamente x ∈ {4,8}) do que tokens de texto. Avaliamos o ARC-Encoder em uma variedade de cenários de uso de LLM, desde aprendizado em contexto até extensão de janela de contexto, tanto em decodificadores base quanto de instrução. Os resultados mostram que o ARC-Encoder alcança desempenho de ponta em vários benchmarks, melhorando simultaneamente a eficiência computacional na inferência. Por fim, demonstramos que nossos modelos podem ser adaptados a múltiplos decodificadores simultaneamente, permitindo que um único codificador generalize entre diferentes LLMs decodificadores. Isso torna o ARC-Encoder uma solução flexível e eficiente para codificadores portáteis que funcionam perfeitamente com múltiplos LLMs. Disponibilizamos um código de treinamento em https://github.com/kyutai-labs/ARC-Encoder, e o conjunto de dados para ajuste fino e os modelos pré-treinados estão disponíveis em https://huggingface.co/collections/kyutai/arc-encoders-68ee18787301407d60a57047.
Recentemente, foram feitos progressos significativos na aprendizagem contínua multimodal, que visa aprender novas tarefas sequencialmente em ambientes multimodais, preservando o desempenho nas tarefas já aprendidas. No entanto, os métodos existentes concentram-se principalmente em tarefas de granularidade grossa, com limitações para abordar o entrelaçamento de modalidades em configurações de aprendizagem contínua de granularidade fina. Para preencher essa lacuna, introduzimos uma nova tarefa de Segmentação Áudio-Visual Contínua (CAVS), que visa segmentar continuamente novas classes guiadas por áudio. Através de uma análise abrangente, foram identificados dois desafios críticos: 1) o desvio semântico multimodal, onde um objeto sonoro é classificado como plano de fundo em tarefas sequenciais; 2) a confusão de co-ocorrência, onde classes que frequentemente co-ocorrem tendem a ser confundidas. Neste trabalho, é projetada uma estrutura de Revisão Multimodal Baseada em Colisão (CMR) para enfrentar esses desafios. Especificamente, para o desvio semântico multimodal, é proposta uma estratégia de Seleção de Amostras Multimodal (MSS) para selecionar amostras com alta consistência modal para revisão. Paralelamente, para a confusão de co-ocorrência, é concebido um mecanismo de Revisão de Amostras Baseado em Colisão (CSR), permitindo aumentar a frequência de amostras de revisão dessas classes confundíveis durante o processo de treinamento. Adicionalmente, construímos três cenários incrementais áudio-visuais para verificar a eficácia do nosso método. Experimentos abrangentes demonstram que o nosso método supera significativamente os métodos de aprendizagem contínua unimodal.
Os Modelos de Linguagem de Grande Porte (LLMs) estão a ser cada vez mais implementados em sistemas agentes que interagem com um ambiente externo; isto torna-os suscetíveis a injeções de *prompt* ao lidar com dados não confiáveis. Para superar esta limitação, propomos o SIC (Controlo de Instruções Suave) – um ciclo iterativo de sanitização de *prompts*, simples mas eficaz, concebido para agentes LLM aumentados com ferramentas. O nosso método inspeciona repetidamente os dados recebidos em busca de instruções que possam comprometer o comportamento do agente. Se for detetado esse tipo de conteúdo, o conteúdo malicioso é reescrito, mascarado ou removido, e o resultado é reavaliado. O processo continua até a entrada estar limpa ou ser atingido um limite máximo de iterações; se permanecer conteúdo imperativo semelhante a instruções, o agente interrompe a operação para garantir segurança. Ao permitir múltiplas passagens, a nossa abordagem reconhece que reescritas individuais podem falhar, mas permite que o sistema detete e corrija injeções perdidas em etapas posteriores. Embora seja imediatamente útil, uma análise do pior caso mostra que o SIC não é infalível; um adversário forte ainda pode obter uma Taxa de Sucesso de Ataque (ASR) de 15% incorporando fluxos de trabalho não imperativos. No entanto, isto eleva o nível de segurança necessário.
Os recentes avanços em modelos de raciocínio de grande escala (LRMs) introduziram um processo intermediário de "pensamento" antes da geração das respostas finais, melhorando suas capacidades de raciocínio em tarefas complexas subsequentes. No entanto, o potencial dos LRMs como avaliadores da qualidade da tradução automática (MT) permanece pouco explorado. Apresentamos a primeira análise sistemática do conceito "LRM-como-juiz" na avaliação de MT. Identificamos desafios fundamentais, revelando que os LRMs exigem materiais de avaliação personalizados, tendem a "pensar demais" em instâncias mais simples e apresentam problemas com mecanismos de pontuação que levam à superestimação. Para enfrentar esses problemas, propomos calibrar o pensamento dos LRMs treinando-os com trajetórias de pensamento sintéticas e semelhantes às humanas. Nossos experimentos nos benchmarks WMT24 Metrics demonstram que esta abordagem reduz substancialmente o custo computacional de pensamento em ~35x, melhorando simultaneamente o desempenho avaliativo em diferentes escalas de LRMs de 7B a 32B (por exemplo, o R1-Distill-Qwen-7B alcança uma melhoria de +8,7 pontos de correlação). Essas descobertas destacam o potencial dos LRMs eficientemente calibrados para avançar a avaliação automática de MT em nível granular.
Modelos de mundo interativos que simulam a dinâmica de objetos são cruciais para a robótica, realidade virtual (RV) e realidade aumentada (RA). No entanto, permanece um desafio significativo aprender modelos de dinâmica consistentes com a física a partir de dados limitados de vídeo do mundo real, especialmente para objetos deformáveis com propriedades físicas espacialmente variáveis. Para superar o desafio da escassez de dados, propomos o PhysWorld, uma nova estrutura que utiliza um simulador para sintetizar demonstrações fisicamente plausíveis e diversificadas para aprender modelos de mundo eficientes. Especificamente, primeiro construímos um gémeo digital fisicamente consistente dentro do simulador MPM (Material Point Method) através da seleção de modelos constitutivos e da otimização global-para-local das propriedades físicas. Subsequentemente, aplicamos perturbações conscientes das partes às propriedades físicas e geramos vários padrões de movimento para o gémeo digital, sintetizando demonstrações extensas e diversificadas. Finalmente, usando essas demonstrações, treinamos um modelo de mundo leve baseado em GNN (Graph Neural Network) que incorpora propriedades físicas. O vídeo real pode ser utilizado para refinar ainda mais as propriedades físicas. O PhysWorld alcança previsões futuras precisas e rápidas para vários objetos deformáveis e também generaliza bem para novas interações. Experiências mostram que o PhysWorld tem um desempenho competitivo, permitindo velocidades de inferência 47 vezes mais rápidas do que o método state-of-the-art recente, ou seja, o PhysTwin.
Aplicamos a teoria das categorias para extrair a estrutura multimodal de documentos, o que nos leva a desenvolver medidas de teoria da informação, sumarização e extensão de conteúdo, e aprimoramento auto supervisionado de grandes modelos pré-treinados. Primeiro, desenvolvemos uma representação matemática de um documento como uma categoria de pares pergunta-resposta. Segundo, desenvolvemos um procedimento de ortogonalização para dividir a informação contida em um ou mais documentos em partes não sobrepostas. As estruturas extraídas no primeiro e no segundo passos nos levam a desenvolver métodos para medir e enumerar a informação contida em um documento. Também nos baseamos nessas etapas para desenvolver novas técnicas de sumarização, bem como para desenvolver uma solução para um novo problema, a saber, a exegese que resulta numa extensão do documento original. Nossa metodologia de pares pergunta-resposta permite uma nova análise de taxa de distorção de técnicas de sumarização. Implementamos nossas técnicas usando grandes modelos pré-treinados e propomos uma extensão multimodal de nossa estrutura matemática geral. Finalmente, desenvolvemos um novo método auto supervisionado usando RLVR para melhorar grandes modelos pré-treinados usando restrições de consistência, como composicionalidade e fechamento sob certas operações que decorrem naturalmente de nossa estrutura de teoria das categorias.
O aprendizado por reforço (RL) emergiu como uma abordagem crucial para aprimorar as capacidades de grandes modelos de linguagem. No entanto, em modelos de Mistura de Especialistas (MoE), o mecanismo de roteamento frequentemente introduz instabilidade, podendo até levar a um colapso catastrófico do treinamento por RL. Analisamos a consistência entre treinamento e inferência em modelos MoE e identificamos uma discrepância notável nos comportamentos de roteamento entre as duas fases. Além disso, mesmo sob condições idênticas, a estrutura de roteamento pode produzir seleções divergentes de especialistas em passes *forward* repetidos. Para resolver essa inconsistência fundamental, propomos o Rollout Routing Replay (R3), um método que registra as distribuições de roteamento do motor de inferência e as reproduz durante o treinamento. O R3 reduz significativamente a divergência KL da política entre treinamento e inferência e mitiga discrepâncias extremas sem comprometer a velocidade de treinamento. Experimentos extensos em várias configurações confirmam que o R3 consegue estabilizar o treinamento por RL, prevenindo colapso e superando métodos como GSPO e TIS. Acreditamos que este trabalho pode oferecer uma nova solução para estabilizar o RL em modelos MoE.
O Foley Control é uma abordagem leve para Foley guiado por vídeo que mantém modelos pré-treinados de modalidade única congelados e aprende apenas uma pequena ponte de atenção cruzada entre eles. Conectamos embeddings de vídeo do V-JEPA2 a um modelo congelado Stable Audio Open DiT de texto-para-áudio (T2A) inserindo uma atenção cruzada compacta para vídeo após a atenção cruzada de texto existente do modelo, permitindo que prompts definam a semântica global enquanto o vídeo refina o timing e a dinâmica local. Os backbones congelados mantêm marginais fortes (vídeo; áudio dado texto) e a ponte aprende a dependência áudio-vídeo necessária para sincronização — sem retreinar o prior de áudio. Para reduzir memória e estabilizar o treinamento, agrupamos tokens de vídeo antes do condicionamento. Em benchmarks curados de vídeo-áudio, o Foley Control oferece alinhamento temporal e semântico competitivo com muito menos parâmetros treináveis do que sistemas multimodais recentes, preservando a controlabilidade orientada por prompts e a modularidade adequada para produção (trocar/atualizar codificadores ou o backbone T2A sem retreinamento end-to-end). Embora nos concentremos em Vídeo-para-Foley, o mesmo design de ponte pode potencialmente estender-se a outras modalidades de áudio (por exemplo, fala).
Os agentes de IA têm o potencial de revolucionar a produtividade científica ao automatizar revisões de literatura, replicar experimentos, analisar dados e até propor novas direções de investigação; de fato, existem agora muitos desses agentes, variando de sistemas de "pesquisa profunda" de propósito geral a agentes especializados em ciência, como o AI Scientist e o AIGS. A avaliação rigorosa desses agentes é crítica para o progresso. No entanto, os benchmarks existentes ficam aquém em várias frentes: eles (1) não fornecem medidas holísticas e informadas pelo produto de casos de uso do mundo real, como a pesquisa científica; (2) carecem de ferramentas de agente reproduzíveis necessárias para uma comparação controlada das capacidades centrais dos agentes; (3) não consideram variáveis de confusão, como o custo do modelo e o acesso a ferramentas; (4) não fornecem interfaces padronizadas para prototipagem e avaliação rápida de agentes; e (5) carecem de agentes de linha de base abrangentes necessários para identificar avanços reais. Em resposta, definimos princípios e ferramentas para avaliar agentes de forma mais rigorosa. Usando esses princípios, apresentamos o AstaBench, um conjunto que fornece a primeira medida holística da capacidade dos agentes de realizar pesquisa científica, compreendendo mais de 2400 problemas que abrangem todo o processo de descoberta científica e múltiplos domínios científicos, incluindo muitos problemas inspirados em solicitações reais de usuários a agentes Asta implantados. Nosso conjunto vem com o primeiro ambiente de pesquisa científica com ferramentas de busca de nível de produção que permitem uma avaliação controlada e reproduzível, contabilizando melhor os fatores de confusão. Juntamente, fornecemos um conjunto abrangente de nove classes de agentes Asta otimizados para ciência e numerosas linhas de base. Nossa extensa avaliação de 57 agentes em 22 classes de agentes revela várias descobertas interessantes, sendo a mais importante que, apesar do progresso significativo em certos aspectos individuais, a IA ainda está longe de resolver o desafio da assistência à pesquisa científica.
O raciocínio visual em modelos de linguagem grandes multimodais (MLLMs) tem sido estudado principalmente em contextos estáticos e totalmente observáveis, limitando sua eficácia em ambientes do mundo real, onde a informação é frequentemente incompleta devido a oclusões ou campo de visão limitado. Os seres humanos, em contraste, exploram e interagem ativamente com o seu ambiente - movendo-se, examinando e manipulando objetos - para recolher informações através de um processo de ciclo fechado que integra perceção, raciocínio e ação. Inspirados por esta capacidade humana, introduzimos a tarefa de Raciocínio Visual Ativo (AVR), que estende o raciocínio visual a ambientes interativos e parcialmente observáveis. A AVR exige que os agentes: (1) adquiram informações ativamente através de ações físicas sequenciais, (2) integrem observações de múltiplos passos para um raciocínio coerente, e (3) ajustem dinamicamente as decisões com base no *feedback* visual em evolução. Para avaliar rigorosamente a AVR, introduzimos o CLEVR-AVR, um *benchmark* de simulação que apresenta ambientes interativos multi-etapa concebidos para avaliar tanto a correção do raciocínio como a eficiência na recolha de informação. Apresentamos o AVR-152k, um conjunto de dados em larga escala que oferece anotações ricas de *Chain-of-Thought* (CoT) detalhando o raciocínio iterativo para identificação de incerteza, previsão de ganho de informação condicionada à ação e seleção de ações que maximizam a informação, cruciais para treinar agentes num Processo de Decisão de Markov de ordem superior. Com base nisto, desenvolvemos o PhysVLM-AVR, um MLLM que atinge um desempenho de última geração no CLEVR-AVR, no raciocínio incorporado (OpenEQA, RoboVQA) e no raciocínio visual passivo (GeoMath, Geometry30K). A nossa análise revela também que os MLLMs incorporados atuais, apesar de detetarem a incompletude da informação, lutam para adquirir e integrar ativamente nova informação através da interação, destacando uma lacuna fundamental nas capacidades de raciocínio ativo.
Os sensores LiDAR 3D são essenciais para navegação autónoma, monitorização ambiental e mapeamento de precisão em aplicações de deteção remota. Para processar eficientemente as nuvens massivas de pontos geradas por estes sensores, os dados LiDAR são frequentemente projetados em imagens de alcance 2D que organizam os pontos pelas suas posições angulares e distâncias. Embora estas representações em imagem de alcance permitam um processamento eficiente, os métodos de projeção convencionais padecem de inconsistências geométricas fundamentais que causam perda irreversível de informação, comprometendo aplicações de alta fidelidade. Apresentamos o ALICE-LRI (Estimativa de Calibração Intrínseca Automática de LiDAR para Imagens de Alcance sem Perdas), o primeiro método geral e independente do sensor que consegue a geração de imagens de alcance sem perdas a partir de nuvens de pontos de LiDAR rotativo, sem necessitar de metadados do fabricante ou ficheiros de calibração. O nosso algoritmo reverte automaticamente a geometria intrínseca de qualquer sensor LiDAR rotativo, inferindo parâmetros críticos, incluindo a configuração do feixe laser, distribuições angulares e correções de calibração por feixe, permitindo uma projeção sem perdas e uma reconstrução completa da nuvem de pontos com perda zero de pontos. A avaliação abrangente nos conjuntos de dados completos KITTI e DurLAR demonstra que o ALICE-LRI alcança uma preservação perfeita de pontos, com zero pontos perdidos em todas as nuvens de pontos. A precisão geométrica é mantida bem dentro dos limites de precisão do sensor, estabelecendo uma ausência de perdas geométricas com desempenho em tempo real. Apresentamos também um estudo de caso de compressão que valida benefícios substanciais a jusante, demonstrando melhorias significativas de qualidade em aplicações práticas. Esta mudança de paradigma de projeções LiDAR aproximadas para sem perdas abre novas possibilidades para aplicações de deteção remota de alta precisão que exigem preservação geométrica completa.