Artigos de pesquisa em IA selecionados diariamente com traduções
A Geração Aumentada por Recuperação (RAG, na sigla em inglês) eleva a factualidade dos Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) ao injetar conhecimento externo, mas ainda apresenta limitações em problemas que exigem inferência em múltiplas etapas; por outro lado, abordagens puramente orientadas ao raciocínio frequentemente alucinam ou fundamentam fatos de maneira incorreta. Este estudo sintetiza ambas as vertentes sob uma perspectiva unificada de raciocínio-recuperação. Primeiro, mapeamos como o raciocínio avançado otimiza cada estágio do RAG (RAG Aprimorado por Raciocínio). Em seguida, mostramos como o conhecimento recuperado de diferentes tipos fornece premissas ausentes e expande o contexto para inferências complexas (Raciocínio Aprimorado por RAG). Por fim, destacamos os emergentes frameworks de RAG-Raciocínio Sinergizados, onde LLMs (agentes) intercalam iterativamente busca e raciocínio para alcançar desempenho de ponta em benchmarks intensivos em conhecimento. Categorizamos métodos, conjuntos de dados e desafios em aberto, e delineamos caminhos de pesquisa para sistemas RAG-Raciocínio mais profundos, que sejam mais eficazes, adaptáveis multimodalmente, confiáveis e centrados no ser humano. A coleção está disponível em https://github.com/DavidZWZ/Awesome-RAG-Reasoning.
A modelagem 3D está evoluindo do virtual para o físico. A geração 3D existente enfatiza principalmente geometrias e texturas, enquanto negligencia a modelagem fundamentada em física. Consequentemente, apesar do rápido desenvolvimento de modelos generativos 3D, os ativos 3D sintetizados frequentemente ignoram propriedades físicas ricas e importantes, prejudicando sua aplicação no mundo real em domínios físicos como simulação e IA incorporada. Como uma tentativa inicial de abordar esse desafio, propomos o PhysX, um paradigma de ponta a ponta para a geração de ativos 3D fundamentados em física. 1) Para preencher a lacuna crítica em conjuntos de dados 3D anotados com física, apresentamos o PhysXNet - o primeiro conjunto de dados 3D fundamentado em física, sistematicamente anotado em cinco dimensões fundamentais: escala absoluta, material, affordance, cinemática e descrição funcional. Em particular, desenvolvemos um pipeline escalável de anotação com humanos no loop baseado em modelos de visão e linguagem, que permite a criação eficiente de ativos com prioridade física a partir de ativos 3D brutos. 2) Além disso, propomos o PhysXGen, um framework feed-forward para a geração de ativos 3D fundamentados em física a partir de imagens, injetando conhecimento físico no espaço estrutural 3D pré-treinado. Especificamente, o PhysXGen emprega uma arquitetura de duplo ramo para modelar explicitamente as correlações latentes entre estruturas 3D e propriedades físicas, produzindo assim ativos 3D com previsões físicas plausíveis enquanto preserva a qualidade geométrica nativa. Experimentos extensivos validam o desempenho superior e a promissora capacidade de generalização do nosso framework. Todo o código, dados e modelos serão liberados para facilitar pesquisas futuras em IA generativa física.
A otimização do desempenho do código é crucial na engenharia de software do mundo real e essencial para sistemas de nível de produção. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades impressionantes na geração de código e correção de bugs, sua proficiência em melhorar o desempenho do código em nível de repositório permanece amplamente inexplorada. Para abordar essa lacuna, apresentamos o SWE-Perf, o primeiro benchmark projetado especificamente para avaliar sistematicamente LLMs em tarefas de otimização de desempenho de código dentro de contextos autênticos de repositórios. O SWE-Perf compreende 140 instâncias cuidadosamente curadas, cada uma derivada de pull requests de melhoria de desempenho de repositórios populares do GitHub. Cada instância do benchmark inclui a base de código relevante, funções alvo, testes relacionados ao desempenho, patches criados por especialistas e ambientes executáveis. Por meio de uma avaliação abrangente de métodos representativos que abrangem abordagens em nível de arquivo e de repositório (por exemplo, Agentless e OpenHands), revelamos uma lacuna substancial de capacidade entre os LLMs existentes e o desempenho de otimização em nível de especialista, destacando oportunidades críticas de pesquisa neste campo emergente.
Agentes de Modelos de Linguagem de Grande Escala (LLM) têm demonstrado grande potencial para resolver problemas do mundo real e prometem ser uma solução para a automação de tarefas na indústria. No entanto, mais benchmarks são necessários para avaliar sistematicamente agentes de automação sob uma perspectiva industrial, por exemplo, na Engenharia Civil. Portanto, propomos o DrafterBench para a avaliação abrangente de agentes LLM no contexto de revisão de desenhos técnicos, uma tarefa de representação na engenharia civil. O DrafterBench contém doze tipos de tarefas resumidas a partir de arquivos de desenho do mundo real, com 46 funções/ferramentas personalizadas e 1920 tarefas no total. O DrafterBench é um benchmark de código aberto para testar rigorosamente a proficiência de agentes de IA na interpretação de instruções complexas e de longo contexto, aproveitando conhecimento prévio e adaptando-se à qualidade dinâmica das instruções por meio de consciência implícita de políticas. O kit de ferramentas avalia de forma abrangente capacidades distintas em compreensão de dados estruturados, execução de funções, seguimento de instruções e raciocínio crítico. O DrafterBench oferece uma análise detalhada da precisão das tarefas e estatísticas de erros, visando fornecer uma visão mais profunda das capacidades dos agentes e identificar alvos de melhoria para a integração de LLMs em aplicações de engenharia. Nosso benchmark está disponível em https://github.com/Eason-Li-AIS/DrafterBench, com o conjunto de testes hospedado em https://huggingface.co/datasets/Eason666/DrafterBench.
Os seres humanos são componentes integrais do ecossistema de transporte, e compreender seus comportamentos é crucial para facilitar o desenvolvimento de sistemas de condução seguros. Embora avanços recentes tenham explorado vários aspectos do comportamento humano—como movimento, trajetórias e intenção—um benchmark abrangente para avaliar a compreensão do comportamento humano na condução autônoma ainda não está disponível. Neste trabalho, propomos o MMHU, um benchmark em larga escala para análise do comportamento humano, caracterizado por anotações ricas, como movimento e trajetórias humanas, descrição textual dos movimentos humanos, intenção humana e rótulos de comportamento crítico relevantes para a segurança na condução. Nosso conjunto de dados abrange 57 mil clipes de movimento humano e 1,73 milhão de quadros coletados de diversas fontes, incluindo conjuntos de dados de condução estabelecidos, como o Waymo, vídeos capturados em ambientes reais do YouTube e dados coletados por nós mesmos. Um pipeline de anotação com intervenção humana foi desenvolvido para gerar descrições detalhadas de comportamentos. Fornecemos uma análise detalhada do conjunto de dados e avaliamos múltiplas tarefas—desde a previsão de movimento até a geração de movimento e a resposta a perguntas sobre comportamento humano—oferecendo, assim, uma suíte de avaliação abrangente. Página do projeto: https://MMHU-Benchmark.github.io.
A comunidade de grandes modelos de linguagem (LLMs) concentra-se quase exclusivamente em modelos de linguagem apenas de decodificação, pois são mais fáceis de usar para geração de texto. No entanto, um grande subconjunto da comunidade ainda utiliza modelos apenas de codificação para tarefas como classificação ou recuperação. Trabalhos anteriores tentaram comparar essas arquiteturas, mas foram forçados a fazer comparações com modelos que possuem números diferentes de parâmetros, técnicas de treinamento e conjuntos de dados. Introduzimos a suíte de modelos Ettin de dados abertos SOTA: modelos emparelhados apenas de codificação e apenas de decodificação, variando de 17 milhões a 1 bilhão de parâmetros, treinados em até 2 trilhões de tokens. Usar a mesma receita para modelos apenas de codificação e apenas de decodificação produz receitas SOTA em ambas as categorias para seus respectivos tamanhos, superando o ModernBERT como codificador e o Llama 3.2 e SmolLM2 como decodificadores. Como em trabalhos anteriores, descobrimos que modelos apenas de codificação se destacam em tarefas de classificação e recuperação, enquanto decodificadores se destacam em tarefas generativas. No entanto, mostramos que adaptar um modelo de decodificação para tarefas de codificação (e vice-versa) por meio de treinamento contínuo é inferior em comparação com o uso apenas do objetivo reverso (ou seja, um codificador de 400M supera um decodificador de 1B no MNLI, e vice-versa para tarefas generativas). Disponibilizamos publicamente todos os artefatos deste estudo, incluindo dados de treinamento, ordem de treinamento segmentada por checkpoint e mais de 200 checkpoints, para permitir que trabalhos futuros analisem ou estendam todos os aspectos do treinamento.
Permitir que humanos virtuais respondam de forma dinâmica e realista a diversos estímulos auditivos continua sendo um desafio fundamental na animação de personagens, exigindo a integração de modelagem perceptiva e síntese de movimento. Apesar de sua importância, essa tarefa permanece amplamente inexplorada. A maioria dos trabalhos anteriores concentrou-se principalmente no mapeamento de modalidades como fala, áudio e música para gerar movimento humano. Até o momento, esses modelos geralmente ignoram o impacto das características espaciais codificadas em sinais de áudio espacial no movimento humano. Para preencher essa lacuna e permitir a modelagem de alta qualidade dos movimentos humanos em resposta ao áudio espacial, introduzimos o primeiro conjunto de dados abrangente de Movimento Humano Impulsionado por Áudio Espacial (SAM, na sigla em inglês), que contém dados diversos e de alta qualidade de áudio espacial e movimento. Para avaliação comparativa, desenvolvemos uma estrutura generativa baseada em difusão simples, porém eficaz, para geração de Movimento humano impulsionado por Áudio Espacial, denominada MOSPA, que captura fielmente a relação entre o movimento corporal e o áudio espacial por meio de um mecanismo de fusão eficaz. Uma vez treinado, o MOSPA pode gerar diversos movimentos humanos realistas condicionados a diferentes entradas de áudio espacial. Realizamos uma investigação detalhada do conjunto de dados proposto e conduzimos experimentos extensivos para avaliação comparativa, onde nosso método alcança desempenho de ponta nessa tarefa. Nosso modelo e conjunto de dados serão disponibilizados como código aberto após a aceitação. Consulte nosso vídeo complementar para mais detalhes.
Propomos o Lizard, um framework de linearização que transforma modelos de linguagem grandes (LLMs) baseados em Transformers pré-treinados em arquiteturas flexíveis e subquadráticas para geração de contexto infinito. Os LLMs baseados em Transformers enfrentam gargalos significativos de memória e computação à medida que os comprimentos de contexto aumentam, devido à complexidade quadrática da atenção softmax e ao crescimento do cache de chave-valor (KV). O Lizard aborda essas limitações ao introduzir um mecanismo de atenção subquadrático que aproxima-se estreitamente da atenção softmax, preservando a qualidade da saída. Diferente de métodos de linearização anteriores, que são frequentemente limitados por estruturas de modelo fixas e, portanto, excluem mecanismos de gating, o Lizard incorpora um módulo de gating inspirado em modelos lineares state-of-the-art recentes. Isso permite controle adaptativo de memória, suporta inferência com memória constante, oferece forte generalização de comprimento e permite um design de modelo mais flexível. O Lizard combina atenção linear com gating para compressão de contexto global com atenção de janela deslizante aprimorada por meta memória, formando um mecanismo híbrido que captura tanto dependências de longo alcance quanto interações locais de granularidade fina. Além disso, introduzimos um algoritmo consciente de hardware que acelera a velocidade de treinamento de nossos modelos. Experimentos extensivos mostram que o Lizard alcança uma recuperação quase sem perdas do desempenho do modelo professor em tarefas padrão de modelagem de linguagem, enquanto supera significativamente métodos de linearização anteriores. No benchmark MMLU de 5-shot, o Lizard melhora em 18 pontos em relação a modelos anteriores e mostra melhorias significativas em tarefas de recall associativo.
Apresentamos o SpatialTrackerV2, um método de rastreamento de pontos 3D feed-forward para vídeos monoculares. Indo além de pipelines modulares construídos com componentes prontos para rastreamento 3D, nossa abordagem unifica as conexões intrínsecas entre rastreamento de pontos, profundidade monocular e estimativa de pose da câmera em um rastreador de pontos 3D de alto desempenho e feedforward. Ele decompõe o movimento 3D no espaço mundial em geometria da cena, ego-movimento da câmera e movimento objeto a nível de pixel, com uma arquitetura totalmente diferenciável e end-to-end, permitindo treinamento escalável em uma ampla gama de conjuntos de dados, incluindo sequências sintéticas, vídeos RGB-D com pose e filmagens não rotuladas em ambientes reais. Ao aprender geometria e movimento conjuntamente a partir de dados tão heterogêneos, o SpatialTrackerV2 supera os métodos existentes de rastreamento 3D em 30% e iguala a precisão das principais abordagens de reconstrução 3D dinâmica, enquanto opera 50 vezes mais rápido.
Avanços recentes estabeleceram um novo paradigma de aprendizado de máquina baseado na ampliação de recursos computacionais tanto no momento da inferência quanto no treinamento. Nessa linha de trabalho, uma combinação de Ajuste Fino Supervisionado (SFT) em demonstrações sintéticas e Aprendizado por Reforço com Recompensas Verificáveis (RLVR) é utilizada para treinar Modelos de Linguagem de Grande Porte a gastar recursos computacionais adicionais durante a inferência na forma de "pensamentos" expressos em linguagem natural. Neste artigo, propomos, em vez disso, formatar esses tokens como um rastro de interação multi-turn com uma ferramenta com estado. A cada turno, o novo estado da ferramenta é anexado ao contexto do modelo, cuja tarefa é gerar os tokens necessários para controlar a ferramenta por meio de uma DSL personalizada. Avaliamos essa abordagem no problema de reparar códigos Python com mau funcionamento e mostramos que essa configuração restrita permite uma amostragem mais rápida de experiências e um sinal de recompensa mais denso, permitindo que até modelos com até 3 bilhões de parâmetros aprendam a gastar recursos computacionais adicionais de forma proficiente na tarefa.
Os recentes avanços na geração de vídeo, particularmente em modelos de difusão, têm impulsionado progressos notáveis na síntese de texto para vídeo (T2V) e imagem para vídeo (I2V). No entanto, desafios permanecem na integração eficaz de sinais de movimento dinâmico e restrições espaciais flexíveis. Os métodos T2V existentes geralmente dependem de prompts de texto, que inerentemente carecem de controle preciso sobre o layout espacial do conteúdo gerado. Em contraste, os métodos I2V são limitados por sua dependência de imagens reais, o que restringe a editabilidade do conteúdo sintetizado. Embora alguns métodos incorporem o ControlNet para introduzir condicionamento baseado em imagem, eles frequentemente carecem de controle explícito de movimento e exigem treinamento computacionalmente caro. Para abordar essas limitações, propomos o AnyI2V, um framework sem necessidade de treinamento que anima qualquer imagem condicional com trajetórias de movimento definidas pelo usuário. O AnyI2V suporta uma gama mais ampla de modalidades como imagem condicional, incluindo tipos de dados como malhas e nuvens de pontos que não são suportados pelo ControlNet, permitindo uma geração de vídeo mais flexível e versátil. Além disso, ele suporta entradas condicionais mistas e permite transferência de estilo e edição via LoRA e prompts de texto. Experimentos extensivos demonstram que o AnyI2V proposto alcança desempenho superior e oferece uma nova perspectiva na geração de vídeo controlada espacialmente e em termos de movimento. O código está disponível em https://henghuiding.com/AnyI2V/.
A rápida evolução das bibliotecas de software representa um desafio considerável para a geração de código, exigindo adaptação contínua às atualizações frequentes de versões, ao mesmo tempo em que se preserva a compatibilidade com versões anteriores. Embora os benchmarks existentes de evolução de código ofereçam insights valiosos, eles geralmente carecem de avaliação baseada em execução para a geração de código compatível com versões específicas de bibliotecas. Para abordar essa lacuna, apresentamos o GitChameleon, um novo conjunto de dados meticulosamente curado, composto por 328 problemas de conclusão de código em Python, cada um condicionado a versões específicas de bibliotecas e acompanhado por testes unitários executáveis. O GitChameleon avalia rigorosamente a capacidade dos modelos de linguagem de grande escala (LLMs) contemporâneos, agentes alimentados por LLMs, assistentes de código e sistemas RAG de realizar geração de código condicionada por versão que demonstra precisão funcional por meio da execução. Nossas extensivas avaliações indicam que os sistemas de ponta enfrentam desafios significativos nessa tarefa; modelos empresariais alcançam taxas de sucesso basais na faixa de 48-51\%, destacando a complexidade do problema. Ao oferecer um benchmark baseado em execução que enfatiza a natureza dinâmica das bibliotecas de código, o GitChameleon possibilita uma compreensão mais clara desse desafio e ajuda a orientar o desenvolvimento de métodos de geração de código por IA mais adaptáveis e confiáveis. Disponibilizamos publicamente o conjunto de dados e o código de avaliação em https://github.com/mrcabbage972/GitChameleonBenchmark.
O aprendizado por reforço (RL) para modelos de linguagem de grande escala é uma tarefa que consome muita energia: o treinamento pode ser instável, e a política pode gradualmente se afastar de seus pesos pré-treinados. Apresentamos o RLEP — Aprendizado por Reforço com Replay de Experiência —, um framework de duas fases que primeiro coleta trajetórias verificadas e depois as reproduz durante o treinamento subsequente. A cada etapa de atualização, a política é otimizada em mini-lotes que combinam rollouts recém-gerados com esses sucessos reproduzidos. Ao reproduzir exemplos de alta qualidade, o RLEP direciona o modelo para longe de explorações infrutíferas, concentrando o aprendizado em caminhos de raciocínio promissores, e proporciona tanto uma convergência mais rápida quanto um desempenho final mais robusto. No modelo base Qwen2.5-Math-7B, o RLEP atinge a precisão máxima de referência com substancialmente menos atualizações e, por fim, a supera, melhorando a precisão no AIME-2024 de 38,2% para 39,9%, no AIME-2025 de 19,8% para 22,3%, e no AMC-2023 de 77,0% para 82,2%. Nosso código, conjuntos de dados e checkpoints estão publicamente disponíveis em https://github.com/Kwai-Klear/RLEP para facilitar a reprodutibilidade e pesquisas futuras.
Este artigo apresenta a participação da AI Wizards no Task 1 do Lab CheckThat! do CLEF 2025: Detecção de Subjetividade em Artigos de Notícias, classificando frases como subjetivas/objetivas em cenários monolíngues, multilíngues e de zero-shot. Conjuntos de dados de treinamento/desenvolvimento foram fornecidos para árabe, alemão, inglês, italiano e búlgaro; a avaliação final incluiu idiomas adicionais não vistos anteriormente (por exemplo, grego, romeno, polonês, ucraniano) para avaliar a generalização. Nossa estratégia principal aprimorou classificadores baseados em transformers ao integrar pontuações de sentimento, derivadas de um modelo auxiliar, com representações de frases, visando melhorar o ajuste fino padrão. Exploramos essa arquitetura aumentada por sentimento com mDeBERTaV3-base, ModernBERT-base (inglês) e Llama3.2-1B. Para lidar com o desequilíbrio de classes, prevalente em todos os idiomas, empregamos calibração de limiar de decisão otimizada no conjunto de desenvolvimento. Nossos experimentos mostram que a integração de características de sentimento aumenta significativamente o desempenho, especialmente o F1 score subjetivo. Essa estrutura levou a classificações elevadas, destacando-se o 1º lugar para o grego (Macro F1 = 0,51).
Modelos multi-modais de base são frequentemente projetados através da combinação de múltiplos modelos uni-modais pré-treinados existentes: por exemplo, um classificador de imagens com um modelo de texto. Esse processo de combinação é realizado treinando um módulo conector que visa alinhar os espaços de representação desses modelos uni-modais em direção a um objetivo multi-modal. No entanto, dada a complexidade de treinar tais conectores em grandes conjuntos de dados baseados na web, juntamente com o número cada vez maior de modelos uni-modais pré-treinados disponíveis, a tarefa de seleção de modelos uni-modais e o subsequente treinamento do módulo conector tornam-se computacionalmente exigentes. Para abordar esse problema crítico e pouco estudado, propomos o Alinhamento de Modelos por Hiper-rede (Hyma), uma solução abrangente e inovadora para a seleção ideal de modelos uni-modais e o treinamento de conectores, aproveitando hiper-redes. Especificamente, nosso framework utiliza a capacidade de previsão de parâmetros de uma hiper-rede para obter módulos conectores treinados conjuntamente para N vezes M combinações de modelos uni-modais. Em nossos experimentos, o Hyma reduz o custo da busca pelo par de modelos uni-modais de melhor desempenho em 10 vezes, enquanto iguala a classificação e o desempenho do conector treinado obtido por meio de busca exaustiva em uma série de benchmarks multi-modais diversos.
A destilação de conhecimento, como uma técnica eficiente de transferência de conhecimento, alcançou sucesso notável em cenários unimodais. No entanto, em configurações cross-modais, os métodos convencionais de destilação enfrentam desafios significativos devido às heterogeneidades de dados e estatísticas, falhando em aproveitar o conhecimento prévio complementar embutido em modelos de professores cross-modais. Este artigo revela empiricamente dois problemas críticos nas abordagens existentes: seleção de caminho de destilação e desvio de conhecimento. Para superar essas limitações, propomos o MST-Distill, uma nova estrutura de destilação de conhecimento cross-modal que apresenta uma mistura de professores especializados. Nossa abordagem emprega um conjunto diversificado de modelos de professores em configurações tanto cross-modais quanto multimodais, integrado a uma rede de roteamento em nível de instância que facilita a destilação adaptativa e dinâmica. Essa arquitetura transcende efetivamente as limitações dos métodos tradicionais que dependem de modelos de professores monótonos e estáticos. Além disso, introduzimos um módulo de mascaramento plug-in, treinado independentemente para suprimir discrepâncias específicas de modalidade e reconstruir as representações dos professores, mitigando assim o desvio de conhecimento e aprimorando a eficácia da transferência. Experimentos extensos em cinco conjuntos de dados multimodais diversos, abrangendo visual, áudio e texto, demonstram que nosso método supera significativamente os métodos de destilação de conhecimento state-of-the-art existentes em tarefas de destilação cross-modal. O código-fonte está disponível em https://github.com/Gray-OREO/MST-Distill.