Artigos de pesquisa em IA selecionados diariamente com traduções
Agentes de IA Geral são cada vez mais reconhecidos como estruturas fundamentais para a próxima geração de inteligência artificial, permitindo raciocínio complexo, interação na web, codificação e capacidades de pesquisa autônoma. No entanto, os sistemas de agentes atuais são ou de código fechado ou dependem fortemente de uma variedade de APIs pagas e ferramentas proprietárias, limitando a acessibilidade e a reprodutibilidade para a comunidade de pesquisa. Neste trabalho, apresentamos o Cognitive Kernel-Pro, uma estrutura de agente multi-módulo totalmente de código aberto e (na máxima medida possível) gratuita, projetada para democratizar o desenvolvimento e a avaliação de agentes de IA avançados. Dentro do Cognitive Kernel-Pro, investigamos sistematicamente a curadoria de dados de treinamento de alta qualidade para Modelos de Base de Agentes, com foco na construção de consultas, trajetórias e respostas verificáveis em quatro domínios principais: web, arquivos, código e raciocínio geral. Além disso, exploramos novas estratégias para reflexão e votação em tempo de teste do agente, visando aumentar a robustez e o desempenho do agente. Avaliamos o Cognitive Kernel-Pro no GAIA, alcançando resultados de ponta entre agentes de código aberto e gratuitos. Notavelmente, nosso modelo de código aberto com 8 bilhões de parâmetros supera sistemas líderes anteriores, como WebDancer e WebSailor, estabelecendo um novo padrão de desempenho para agentes de IA acessíveis e de alta capacidade. O código está disponível em https://github.com/Tencent/CognitiveKernel-Pro.
Os Modelos de Linguagem de Grande Escala baseados em Difusão (DLLMs) estão surgindo como uma alternativa poderosa aos dominantes Modelos de Linguagem de Grande Escala Autoregressivos, oferecendo geração paralela eficiente e modelagem de contexto global robusta. No entanto, a aplicação prática dos DLLMs é limitada por uma restrição arquitetônica crítica: a necessidade de um comprimento de geração predefinido estaticamente. Essa alocação de comprimento estático resulta em um dilema problemático: comprimentos insuficientes prejudicam o desempenho em tarefas complexas, enquanto comprimentos excessivos geram sobrecarga computacional significativa e, às vezes, degradação de desempenho. Embora o framework de inferência seja rígido, observamos que o próprio modelo possui sinais internos que se correlacionam com o comprimento ideal de resposta para uma determinada tarefa. Para superar essa lacuna, aproveitamos esses sinais latentes e introduzimos o DAEDAL, uma nova estratégia de desruído livre de treinamento que permite a Expansão Dinâmica de Comprimento Adaptativo para Modelos de Linguagem de Grande Escala baseados em Difusão. O DAEDAL opera em duas fases: 1) Antes do processo de desruído, o DAEDAL começa com um comprimento inicial curto e o expande iterativamente para um comprimento aproximado adequado à tarefa, guiado por uma métrica de completude de sequência. 2) Durante o processo de desruído, o DAEDAL intervém dinamicamente ao identificar e expandir regiões de geração insuficientes por meio da inserção de tokens de máscara, garantindo que a saída final seja totalmente desenvolvida. Experimentos extensivos com DLLMs demonstram que o DAEDAL alcança desempenho comparável e, em alguns casos, superior a baselines de comprimento fixo meticulosamente ajustados, ao mesmo tempo em que melhora a eficiência computacional ao atingir uma taxa efetiva de tokens mais alta. Ao resolver a restrição de comprimento estático, o DAEDAL desbloqueia novo potencial para os DLLMs, preenchendo uma lacuna crítica em relação aos seus equivalentes Autoregressivos e abrindo caminho para uma geração mais eficiente e capaz.
O sucesso atual dos transformadores de difusão depende fortemente do espaço latente comprimido moldado pelo autoencoder variacional (VAE) pré-treinado. No entanto, esse paradigma de treinamento em duas etapas introduz inevitavelmente erros acumulados e artefatos de decodificação. Para abordar os problemas mencionados, os pesquisadores retornam ao espaço de pixels ao custo de pipelines em cascata complexos e aumento da complexidade dos tokens. Em contraste com esses esforços, propomos modelar a decodificação por patches com campo neural e apresentamos uma solução eficiente, de estágio único, de escala única e de ponta a ponta, denominada difusão de campo neural de pixels (PixelNerd). Graças à representação eficiente do campo neural no PixNerd, alcançamos diretamente 2,15 FID no ImageNet 256x256 e 2,84 FID no ImageNet 512x512 sem qualquer pipeline em cascata complexo ou VAE. Também estendemos nossa estrutura PixNerd para aplicações de texto para imagem. Nosso PixNerd-XXL/16 alcançou uma pontuação geral competitiva de 0,73 no benchmark GenEval e 80,9 no benchmark DPG.
Grandes modelos de visão e linguagem (VLMs) têm feito avanços significativos em tarefas de compreensão visual 2D, despertando interesse em estender essas capacidades para a compreensão de cenas 3D. No entanto, os VLMs 3D atuais frequentemente enfrentam dificuldades com raciocínio robusto e generalização devido a limitações em dados espaciais de alta qualidade e à natureza estática das suposições de ponto de vista. Para abordar esses desafios, propomos o 3D-R1, um modelo de base que aprimora as capacidades de raciocínio dos VLMs 3D. Especificamente, primeiro construímos um conjunto de dados sintético de alta qualidade com CoT, denominado Scene-30K, aproveitando conjuntos de dados 3D-VL existentes e um mecanismo de dados baseado no Gemini 2.5 Pro. Ele serve como dados de inicialização de partida a frio para o 3D-R1. Além disso, utilizamos uma política de RLHF, como GRPO, no processo de treinamento de aprendizado por reforço para aprimorar as capacidades de raciocínio e introduzimos três funções de recompensa: uma recompensa de percepção, uma recompensa de similaridade semântica e uma recompensa de formato para manter a precisão de detecção e a precisão semântica das respostas. Adicionalmente, introduzimos uma estratégia dinâmica de seleção de visão que escolhe adaptativamente as perspectivas mais informativas para a compreensão de cenas 3D. Experimentos extensivos demonstram que o 3D-R1 proporciona uma melhoria média de 10% em vários benchmarks de cenas 3D, destacando sua eficácia no aprimoramento do raciocínio e da generalização na compreensão de cenas 3D. Código: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
Avanços recentes em agentes de modelos de linguagem de grande escala (LLM) têm demonstrado progresso notável na resolução de problemas de software, utilizando técnicas avançadas como colaboração multiagente e Busca em Árvore de Monte Carlo (MCTS). No entanto, os agentes atuais atuam como exploradores sem memória - tratando cada problema de forma isolada, sem reter ou reutilizar conhecimentos de experiências anteriores de reparo. Isso leva à exploração redundante de trajetórias falhas e à perda de oportunidades para adaptar métodos bem-sucedidos de resolução de problemas a questões semelhantes. Para resolver esse problema, introduzimos o SWE-Exp, uma abordagem aprimorada por experiência que destila conhecimentos concisos e acionáveis a partir de trajetórias anteriores de agentes, permitindo aprendizado contínuo entre problemas. Nosso método introduz um banco de experiências multifacetado que captura tanto tentativas bem-sucedidas quanto falhas de reparo. Especificamente, ele extrai conhecimentos reutilizáveis de resolução de problemas em diferentes níveis - desde a compreensão de alto nível do problema até alterações específicas no código. Experimentos mostram que o SWE-Exp alcança a taxa de resolução mais avançada (41,6% Pass@1) no SWE-bench-Verified sob frameworks de agentes de código aberto. Nossa abordagem estabelece um novo paradigma no qual agentes de engenharia de software automatizada acumulam e utilizam sistematicamente expertise em reparo, mudando fundamentalmente da exploração por tentativa e erro para a resolução estratégica de problemas orientada por experiência.
A resolução de problemas tem feito progressos notáveis graças às capacidades avançadas de raciocínio dos grandes modelos de linguagem (LLMs). Recentemente, frameworks baseados em agentes, como o SWE-agent, avançaram ainda mais esse progresso ao permitir que agentes autônomos e capazes de utilizar ferramentas enfrentem tarefas complexas de engenharia de software. Embora as abordagens existentes de resolução de problemas baseadas em agentes se baseiem principalmente em explorações independentes dos agentes, elas frequentemente ficam presas em soluções locais e falham em identificar padrões de problemas que se estendem por diferentes partes da base de código. Para superar essa limitação, propomos o SWE-Debate, um framework competitivo de debate multiagente que incentiva caminhos de raciocínio diversos e alcança uma localização de problemas mais consolidada. O SWE-Debate primeiro cria múltiplos rastros de propagação de falhas como propostas de localização, percorrendo um grafo de dependência de código. Em seguida, organiza um debate de três rodadas entre agentes especializados, cada um incorporando perspectivas de raciocínio distintas ao longo do rastro de propagação de falhas. Essa competição estruturada permite que os agentes colaborem para convergir em um plano de correção consolidado. Por fim, esse plano de correção consolidado é integrado a um agente de modificação de código baseado em MCTS para a geração de patches. Experimentos no benchmark SWE-bench mostram que o SWE-Debate alcança novos resultados state-of-the-art em frameworks de agentes de código aberto e supera as linhas de base por uma grande margem.
A avaliação das habilidades conversacionais de modelos de linguagem de grande escala (LLMs, na sigla em inglês) continua sendo uma tarefa desafiadora. As abordagens atuais predominantes dependem principalmente do paradigma "LLM-como-juiz", no qual um LLM é solicitado a atuar como avaliador para medir a qualidade do diálogo. No entanto, tais métodos frequentemente sofrem com diversos vieses, o que compromete a confiabilidade e a consistência dos resultados da avaliação. Para mitigar esses vieses, métodos recentes empregam múltiplos LLMs como juízes e agregam seus julgamentos para selecionar a avaliação ideal. Embora eficaz, essa abordagem de múltiplos juízes incorre em um custo computacional significativo durante a inferência. Neste artigo, propomos um avaliador eficiente de diálogos multi-turn que captura a sabedoria coletiva de múltiplos juízes LLM ao agregar seu conhecimento de preferência em um único modelo. Nossa abordagem preserva as vantagens do feedback diversificado de múltiplos juízes enquanto reduz drasticamente o custo da avaliação, permitindo uma avaliação rápida e flexível da qualidade do diálogo. Experimentos extensivos em sete benchmarks de avaliação de diálogos, tanto para classificação única quanto para comparação pareada, demonstram que nosso método supera as abordagens existentes em diversos cenários, destacando sua eficiência e robustez.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) catalisaram o desenvolvimento de LLMs multimodais (MLLMs) que integram texto, fala e visão em estruturas unificadas. À medida que os MLLMs evoluem de sistemas monolíngues e específicos para tarefas para modelos de propósito geral que seguem instruções, uma fronteira crucial reside na avaliação de suas capacidades multilingues e multimodais em contextos tanto longos quanto curtos. No entanto, os benchmarks existentes falham em avaliar essas dimensões conjuntamente: eles frequentemente se limitam ao inglês, focam principalmente em uma única modalidade por vez, dependem de contextos de curta duração ou carecem de anotações humanas — o que dificulta uma avaliação abrangente do desempenho dos modelos em diferentes idiomas, modalidades e complexidades de tarefas. Para abordar essas lacunas, introduzimos o MCIF (Multimodal Crosslingual Instruction Following), o primeiro benchmark multilingue anotado por humanos, baseado em palestras científicas, projetado para avaliar o seguimento de instruções em cenários multilingues e multimodais, tanto para entradas de curta quanto de longa duração. O MCIF abrange três modalidades principais — fala, visão e texto — e quatro idiomas diversos (inglês, alemão, italiano e chinês), permitindo uma avaliação abrangente das habilidades dos MLLMs em interpretar instruções em diferentes idiomas e combiná-las com informações contextuais multimodais. O MCIF é disponibilizado sob uma licença CC-BY 4.0 para incentivar pesquisas abertas e o progresso no desenvolvimento de MLLMs.
A segmentação multimodal por referência tem como objetivo segmentar objetos-alvo em cenas visuais, como imagens, vídeos e cenas 3D, com base em expressões de referência em formato textual ou de áudio. Essa tarefa desempenha um papel crucial em aplicações práticas que exigem percepção precisa de objetos com base em instruções do usuário. Na última década, ela tem recebido atenção significativa na comunidade multimodal, impulsionada por avanços em redes neurais convolucionais, transformers e grandes modelos de linguagem, todos os quais melhoraram substancialmente as capacidades de percepção multimodal. Este artigo fornece uma revisão abrangente da segmentação multimodal por referência. Começamos apresentando o contexto desse campo, incluindo definições do problema e conjuntos de dados comumente utilizados. Em seguida, resumimos uma metaarquitetura unificada para segmentação por referência e revisamos métodos representativos em três principais cenários visuais: imagens, vídeos e cenas 3D. Discutimos ainda métodos de Expressão de Referência Generalizada (GREx) para abordar os desafios da complexidade do mundo real, juntamente com tarefas relacionadas e aplicações práticas. Comparações extensivas de desempenho em benchmarks padrão também são fornecidas. Acompanhamos continuamente trabalhos relacionados em https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation.
A geração de vídeo impulsionada por áudio visa sintetizar vídeos realistas que se alinhem com gravações de áudio de entrada, semelhante à capacidade humana de visualizar cenas a partir de estímulos auditivos. No entanto, as abordagens existentes concentram-se predominantemente em explorar informações semânticas, como as classes das fontes sonoras presentes no áudio, limitando sua capacidade de gerar vídeos com conteúdo preciso e composição espacial. Em contraste, nós, humanos, não apenas identificamos naturalmente as categorias semânticas das fontes sonoras, mas também determinamos seus atributos espaciais profundamente codificados, incluindo localizações e direções de movimento. Essa informação útil pode ser elucidada ao considerar indicadores espaciais específicos derivados das propriedades físicas inerentes do som, como volume ou frequência. Como os métodos anteriores ignoram amplamente esse fator, apresentamos o SpA2V, o primeiro framework que explora explicitamente essas pistas auditivas espaciais de áudios para gerar vídeos com alta correspondência semântica e espacial. O SpA2V decompõe o processo de geração em duas etapas: 1) Planejamento de Vídeo Guiado por Áudio: Adaptamos meticulosamente um MLLM (Modelo de Linguagem Multimodal) de última geração para uma nova tarefa de aproveitar pistas espaciais e semânticas do áudio de entrada para construir Layouts de Cena de Vídeo (VSLs). Isso serve como uma representação intermediária para preencher a lacuna entre as modalidades de áudio e vídeo. 2) Geração de Vídeo Baseada em Layout: Desenvolvemos uma abordagem eficiente e eficaz para integrar perfeitamente os VSLs como orientação condicional em modelos de difusão pré-treinados, permitindo a geração de vídeos baseada em VSLs de maneira livre de treinamento. Experimentos extensivos demonstram que o SpA2V se destaca na geração de vídeos realistas com alinhamento semântico e espacial aos áudios de entrada.
Os Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) demonstraram uma proficiência notável na geração de textos que se assemelham muito à escrita humana. No entanto, eles frequentemente produzem declarações factualmente incorretas, um problema comumente referido como 'alucinação'. Abordar a alucinação é crucial para aumentar a confiabilidade e a eficácia dos LLMs. Embora grande parte da pesquisa tenha se concentrado em alucinações em inglês, nosso estudo estende essa investigação para dados conversacionais em três idiomas: hindi, farsi e mandarim. Oferecemos uma análise abrangente de um conjunto de dados para examinar tanto erros factuais quanto linguísticos nesses idiomas para GPT-3.5, GPT-4o, Llama-3.1, Gemma-2.0, DeepSeek-R1 e Qwen-3. Descobrimos que os LLMs produzem muito poucas respostas alucinadas em mandarim, mas geram um número significativamente maior de alucinações em hindi e farsi.
A navegação visual com uma imagem como objetivo é um problema fundamental e desafiador. Métodos convencionais dependem de aprendizado por reforço (RL) de ponta a ponta ou de políticas modulares com grafos topológicos ou mapas BEV como memória, que não conseguem modelar completamente a relação geométrica entre o ambiente 3D explorado e a imagem objetivo. Para localizar eficientemente e com precisão a imagem objetivo no espaço 3D, construímos nosso sistema de navegação com base na representação de gaussiana 3D renderizável (3DGS). No entanto, devido à intensidade computacional da otimização 3DGS e ao grande espaço de busca da pose da câmera com 6 graus de liberdade (6-DoF), o uso direto da 3DGS para localização de imagem durante o processo de exploração do agente é proibitivamente ineficiente. Para isso, propomos o IGL-Nav, uma estrutura de Localização Incremental de Gaussiana 3D para navegação eficiente e consciente do espaço 3D com imagem como objetivo. Especificamente, atualizamos incrementalmente a representação da cena à medida que novas imagens chegam com previsão monocular de avanço. Em seguida, localizamos grosseiramente o objetivo utilizando informações geométricas para correspondência de espaço discreto, o que pode ser equivalente a uma convolução 3D eficiente. Quando o agente está próximo do objetivo, resolvemos finalmente a pose fina do alvo com otimização via renderização diferenciável. O IGL-Nav proposto supera os métodos state-of-the-art existentes por uma grande margem em diversas configurações experimentais. Ele também pode lidar com a configuração mais desafiadora de imagem objetivo com visão livre e ser implantado em uma plataforma robótica do mundo real usando um celular para capturar a imagem objetivo em uma pose arbitrária. Página do projeto: https://gwxuan.github.io/IGL-Nav/.
Embora a IA se destaque na geração de texto, áudio, imagens e vídeos, a criação de conteúdo audiovisual interativo, como videogames, ainda é um desafio. Os LLMs atuais podem gerar jogos e animações em JavaScript, mas carecem de métricas de avaliação automatizadas e enfrentam dificuldades com conteúdo complexo que normalmente exige equipes humanas trabalhando por muitos meses (multi-shot, multi-agentes) utilizando recursos criados por artistas. Para abordar essas questões, desenvolvemos uma nova métrica e um sistema multi-agente. Propomos o AVR-Eval, uma métrica relativa para a qualidade de conteúdo multimídia utilizando Gravações Áudio-Visuais (AVRs). Um modelo omni-modal (que processa texto, vídeo e áudio) compara as AVRs de dois conteúdos, com um modelo de texto revisando as avaliações para determinar a superioridade. Mostramos que o AVR-Eval identifica corretamente o conteúdo bom em relação ao quebrado ou desalinhado. Construímos o AVR-Agent, um sistema multi-agente que gera código JavaScript a partir de um banco de recursos multimídia (áudio, imagens, modelos 3D). O agente de codificação seleciona os recursos relevantes, gera múltiplos códigos iniciais, usa o AVR-Eval para identificar a melhor versão e a melhora iterativamente por meio de feedback omni-modal do agente a partir da AVR. Realizamos experimentos com jogos e animações utilizando o AVR-Eval (taxa de vitória do conteúdo A contra B). Descobrimos que o conteúdo gerado pelo AVR-Agent tem uma taxa de vitória significativamente maior em comparação com o conteúdo gerado por geração one-shot. No entanto, os modelos têm dificuldade em aproveitar efetivamente recursos personalizados e feedback AVR, não mostrando uma taxa de vitória maior. Isso revela uma lacuna crítica: enquanto os humanos se beneficiam de recursos de alta qualidade e feedback audiovisual, os modelos de codificação atuais não parecem utilizar esses recursos de forma tão eficaz, destacando diferenças fundamentais entre as abordagens de criação de conteúdo humano e máquina.