Artigos de pesquisa em IA selecionados diariamente com traduções
À medida que os agentes de linguagem lidam com tarefas cada vez mais complexas, eles enfrentam dificuldades com a correção eficaz de erros e a reutilização de experiências entre domínios. Apresentamos o Agent KB, uma estrutura hierárquica de experiência que permite a resolução complexa de problemas por meio de um pipeline inovador de Raciocinar-Recuperar-Refinar. O Agent KB aborda uma limitação central: tradicionalmente, os agentes não conseguem aprender com as experiências uns dos outros. Ao capturar tanto estratégias de alto nível quanto logs detalhados de execução, o Agent KB cria uma base de conhecimento compartilhada que possibilita a transferência de conhecimento entre agentes. Avaliado no benchmark GAIA, o Agent KB aumenta as taxas de sucesso em até 16,28 pontos percentuais. Nas tarefas mais desafiadoras, o Claude-3 melhora de 38,46% para 57,69%, enquanto o GPT-4 avança de 53,49% para 73,26% em tarefas intermediárias. No reparo de código do SWE-bench, o Agent KB permite que o Claude-3 melhore de 41,33% para 53,33%. Nossos resultados sugerem que o Agent KB fornece uma infraestrutura modular e independente de framework, permitindo que os agentes aprendam com experiências passadas e generalizem estratégias bem-sucedidas para novas tarefas.
Os Modelos de Linguagem de Grande Escala (LLMs) tornaram-se uma infraestrutura essencial para a Inteligência Artificial Geral (AGI), mas a falta de sistemas de gerenciamento de memória bem definidos dificulta o desenvolvimento de raciocínio de longo contexto, personalização contínua e consistência de conhecimento. Os modelos existentes dependem principalmente de parâmetros estáticos e estados contextuais de curta duração, limitando sua capacidade de rastrear preferências do usuário ou atualizar conhecimentos ao longo de períodos prolongados. Embora a Geração Aumentada por Recuperação (RAG) introduza conhecimento externo em texto simples, ela permanece uma solução temporária sem controle de ciclo de vida ou integração com representações persistentes. Trabalhos recentes modelaram o custo de treinamento e inferência de LLMs a partir de uma perspectiva de hierarquia de memória, mostrando que a introdução de uma camada de memória explícita entre a memória de parâmetros e a recuperação externa pode reduzir substancialmente esses custos ao externalizar conhecimentos específicos. Além da eficiência computacional, os LLMs enfrentam desafios mais amplos decorrentes de como a informação é distribuída ao longo do tempo e do contexto, exigindo sistemas capazes de gerenciar conhecimentos heterogêneos que abrangem diferentes escalas temporais e fontes. Para enfrentar esse desafio, propomos o MemOS, um sistema operacional de memória que trata a memória como um recurso de sistema gerenciável. Ele unifica a representação, o agendamento e a evolução de memórias em texto simples, baseadas em ativação e em nível de parâmetros, permitindo armazenamento e recuperação com custo eficiente. Como unidade básica, um MemCube encapsula tanto o conteúdo da memória quanto metadados, como proveniência e versionamento. Os MemCubes podem ser compostos, migrados e fundidos ao longo do tempo, permitindo transições flexíveis entre tipos de memória e conectando a recuperação com o aprendizado baseado em parâmetros. O MemOS estabelece uma estrutura de sistema centrada na memória que traz controlabilidade, plasticidade e evolutividade aos LLMs, lançando as bases para aprendizado contínuo e modelagem personalizada.
Aprender representações de texto de alta qualidade é fundamental para uma ampla gama de tarefas de PLN. Embora o pré-treinamento de codificadores tradicionalmente tenha se baseado no Modelo de Linguagem Mascarada (MLM), evidências recentes sugerem que modelos decodificadores pré-treinados com Modelo de Linguagem Causal (CLM) podem ser efetivamente reutilizados como codificadores, muitas vezes superando codificadores tradicionais em benchmarks de representação de texto. No entanto, ainda não está claro se esses ganhos refletem uma vantagem inerente do objetivo CLM ou surgem de fatores confundidores, como escala do modelo e dos dados. Neste artigo, abordamos essa questão por meio de uma série de ablações de pré-treinamento em grande escala e cuidadosamente controladas, treinando um total de 30 modelos variando de 210 milhões a 1 bilhão de parâmetros e realizando mais de 15.000 execuções de ajuste fino e avaliação. Descobrimos que, embora o treinamento com MLM geralmente produza melhor desempenho em tarefas de representação de texto, os modelos treinados com CLM são mais eficientes em termos de dados e demonstram maior estabilidade no ajuste fino. Com base nessas descobertas, mostramos experimentalmente que uma estratégia de treinamento bifásica que aplica sequencialmente CLM e depois MLM alcança o desempenho ideal sob um orçamento computacional de treinamento fixo. Além disso, demonstramos que essa estratégia se torna mais atraente ao inicializar a partir de modelos CLM pré-treinados prontamente disponíveis (do ecossistema existente de LLMs), reduzindo a carga computacional necessária para treinar modelos codificadores de classe superior. Disponibilizamos todos os artefatos do projeto em https://hf.co/MLMvsCLM para promover pesquisas futuras.
Avanços recentes em modelos visão-linguagem-ação (VLA) têm mostrado potencial na integração de geração de imagens com previsão de ações para melhorar a generalização e o raciocínio na manipulação robótica. No entanto, os métodos existentes estão limitados à previsão baseada em imagens, que sofre com informações redundantes e carece de conhecimento abrangente e crítico sobre o mundo, incluindo informações dinâmicas, espaciais e semânticas. Para abordar essas limitações, propomos o DreamVLA, uma nova estrutura VLA que integra previsão de conhecimento abrangente sobre o mundo para permitir a modelagem de dinâmica inversa, estabelecendo assim um loop percepção-previsão-ação para tarefas de manipulação. Especificamente, o DreamVLA introduz uma previsão de conhecimento do mundo guiada por regiões dinâmicas, integrada com pistas espaciais e semânticas, que fornecem representações compactas, porém abrangentes, para o planejamento de ações. Esse design está alinhado com a forma como os humanos interagem com o mundo, formando primeiro cadeias de raciocínio multimodal abstratas antes de agir. Para mitigar a interferência entre as informações dinâmicas, espaciais e semânticas durante o treinamento, adotamos um mecanismo de atenção estruturada em blocos que mascara a atenção mútua entre elas, evitando vazamento de informações e mantendo cada representação limpa e desembaraçada. Além disso, para modelar a distribuição condicional sobre ações futuras, empregamos um transformer baseado em difusão que desembaraça as representações de ações de características latentes compartilhadas. Experimentos extensivos em ambientes do mundo real e de simulação demonstram que o DreamVLA alcança uma taxa de sucesso de 76,7% em tarefas de robôs reais e uma média de 4,44 no comprimento das sequências nos benchmarks CALVIN ABC-D.
Reconstruir cenas de movimento rápido a partir de vídeos multiview é crucial para a análise de movimentos em alta velocidade e a reconstrução realista em 4D. No entanto, a maioria dos sistemas de captura 4D está limitada a taxas de quadros abaixo de 30 FPS (quadros por segundo), e uma reconstrução 4D direta de movimentos em alta velocidade a partir de entradas de baixa taxa de quadros pode resultar em efeitos indesejáveis. Neste trabalho, propomos um sistema de captura 4D em alta velocidade utilizando apenas câmeras de baixa taxa de quadros, por meio de módulos inovadores de captura e processamento. No lado da captura, propomos um esquema de captura assíncrona que aumenta a taxa de quadros efetiva ao escalonar os tempos de início das câmeras. Ao agrupar câmeras e aproveitar uma taxa de quadros base de 25 FPS, nosso método alcança uma taxa de quadros equivalente de 100-200 FPS sem a necessidade de câmeras especializadas de alta velocidade. No lado do processamento, também propomos um novo modelo generativo para corrigir artefatos causados pela reconstrução 4D de visão esparsa, já que a assincronia reduz o número de pontos de vista em cada instante de tempo. Especificamente, propomos treinar um modelo de correção de artefatos baseado em difusão de vídeo para reconstrução 4D esparsa, que refina detalhes ausentes, mantém a consistência temporal e melhora a qualidade geral da reconstrução. Resultados experimentais demonstram que nosso método aprimora significativamente a reconstrução 4D em alta velocidade em comparação com a captura síncrona.
Oferecemos uma nova perspectiva sobre a modelagem de recompensas ao formulá-la como um discriminador de políticas, que quantifica a diferença entre duas políticas para gerar um sinal de recompensa, guiando a política de treinamento em direção a uma política alvo com comportamentos desejados. Com base nessa visão conceitual, propomos um método escalável de pré-treinamento chamado Aprendizado Discriminativo de Políticas (POLAR), que treina um modelo de recompensa (RM) para discernir políticas idênticas e discriminar políticas diferentes. Diferente dos métodos tradicionais de modelagem de recompensas que dependem de preferências absolutas, o POLAR captura a diferença relativa entre uma política e uma política alvo arbitrária, sendo um objetivo de otimização de alto nível e escalável, adequado para modelar relações genéricas de classificação. Aproveitando o paradigma de pré-treinamento POLAR, apresentamos uma série de RMs com escalas de parâmetros de 1,8B a 7B. Resultados empíricos mostram que o POLAR supera substancialmente métodos tradicionais sem pré-treinamento, melhorando significativamente o desempenho do RM. Por exemplo, o POLAR-7B pode melhorar a precisão de preferência de 54,8% para 81,0% em tarefas STEM e de 57,9% para 85,5% em tarefas de escrita criativa em comparação com baselines state-of-the-art (SOTA). O POLAR também demonstra capacidades robustas de generalização em RLHF usando Ajuste Fino por Reforço (RFT), fornecendo sinais de recompensa confiáveis e melhorando marcadamente o desempenho da política—aumentando o LLaMa3.1-8B de uma média de 47,36% para 56,33% e o Qwen2.5-32B de 64,49% para 70,47% em 20 benchmarks. Além disso, experimentos de escalonamento revelam uma clara relação de lei de potência entre computação e desempenho, apoiada por coeficientes de correlação linear próximos de 0,99. O desempenho impressionante, a forte generalização e as propriedades de escalonamento sugerem que o POLAR é uma direção promissora para o desenvolvimento de modelos de recompensa gerais e robustos.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho impressionante em tarefas de propósito geral, mas adaptá-los a domínios específicos continua sendo um desafio devido à escassez de dados de alta qualidade no domínio. As ferramentas existentes de síntese de dados frequentemente têm dificuldade em extrair dados confiáveis para ajuste fino de documentos heterogêneos de forma eficaz. Para superar essa limitação, propomos o Easy Dataset, um framework unificado para sintetizar dados de ajuste fino a partir de documentos não estruturados por meio de uma interface gráfica do usuário (GUI) intuitiva. Especificamente, o Easy Dataset permite que os usuários configurem facilmente modelos de extração de texto e estratégias de segmentação para transformar documentos brutos em trechos de texto coerentes. Em seguida, ele utiliza uma abordagem de geração de prompts baseada em personas para criar pares de perguntas e respostas diversos usando LLMs disponíveis publicamente. Ao longo do pipeline, uma interface visual com intervenção humana facilita a revisão e o refinamento dos resultados intermediários para garantir a qualidade dos dados. Experimentos em uma tarefa de questionamento e resposta no domínio financeiro mostram que o ajuste fino de LLMs no conjunto de dados sintetizado melhora significativamente o desempenho específico do domínio, preservando o conhecimento geral. O código-fonte e o pacote instalável estão disponíveis em https://github.com/ConardLi/easy-dataset e já receberam mais de 9.000 estrelas no GitHub.
Apresentamos o RoboBrain 2.0, nossa mais recente geração de modelos fundamentais de visão e linguagem incorporada, projetados para unificar percepção, raciocínio e planejamento para tarefas complexas em ambientes físicos. Ele está disponível em duas variantes: um modelo leve de 7B e um modelo em escala completa de 32B, com uma arquitetura heterogênea que inclui um codificador de visão e um modelo de linguagem. Apesar de seu tamanho compacto, o RoboBrain 2.0 alcança um desempenho robusto em uma ampla gama de tarefas de raciocínio incorporado. Tanto em benchmarks espaciais quanto temporais, a variante de 32B obtém resultados líderes, superando modelos anteriores de código aberto e proprietários. Em particular, ele suporta capacidades essenciais de IA incorporada no mundo real, incluindo compreensão espacial (por exemplo, previsão de affordance, referência espacial, previsão de trajetória) e tomada de decisão temporal (por exemplo, interação em loop fechado, planejamento de longo prazo multiagente e atualização de grafos de cena). Este relatório detalha a arquitetura do modelo, a construção de dados, as estratégias de treinamento em múltiplos estágios, a infraestrutura e as aplicações práticas. Esperamos que o RoboBrain 2.0 avance a pesquisa em IA incorporada e sirva como um passo prático para a construção de agentes incorporados generalistas. O código, o checkpoint e o benchmark estão disponíveis em https://superrobobrain.github.io.
Recentemente, grandes avanços foram alcançados na geração de texto para vídeo (T2V) ao escalar modelos de difusão baseados em transformadores para bilhões de parâmetros, capazes de gerar vídeos de alta qualidade. No entanto, os modelos existentes normalmente produzem apenas clipes curtos offline, limitando seus casos de uso em aplicações interativas e em tempo real. Este artigo aborda esses desafios propondo o StreamDiT, um modelo de geração de vídeo em streaming. O treinamento do StreamDiT é baseado em correspondência de fluxo, adicionando um buffer móvel. Projetamos um treinamento misto com diferentes esquemas de particionamento de quadros em buffer para melhorar tanto a consistência do conteúdo quanto a qualidade visual. A modelagem do StreamDiT é baseada em adaLN DiT com incorporação de tempo variável e atenção por janela. Para praticar o método proposto, treinamos um modelo StreamDiT com 4 bilhões de parâmetros. Além disso, propomos um método de destilação em múltiplos passos adaptado para o StreamDiT. A destilação de amostragem é realizada em cada segmento de um esquema de particionamento escolhido. Após a destilação, o número total de avaliações de função (NFEs) é reduzido ao número de blocos em um buffer. Por fim, nosso modelo destilado atinge desempenho em tempo real a 16 FPS em uma GPU, capaz de gerar fluxos de vídeo em resolução 512p. Avaliamos nosso método por meio de métricas quantitativas e avaliação humana. Nosso modelo possibilita aplicações em tempo real, como geração em streaming, geração interativa e vídeo para vídeo. Fornecemos resultados em vídeo e mais exemplos em nosso site do projeto: <a href="https://cumulo-autumn.github.io/StreamDiT/">este link</a>.
Neste artigo, apresentamos o BMMR, um conjunto de dados bilíngue, multimodal e multidisciplinar em larga escala para o desenvolvimento e avaliação de modelos multimodais de grande escala (LMMs). O BMMR compreende 110 mil questões de nível universitário abrangendo 300 disciplinas definidas pela UNESCO, com diversos formatos — múltipla escolha, preenchimento de lacunas e perguntas abertas — e provenientes de mídias impressas e digitais, como livros, exames e quizzes. Todos os dados são curados e filtrados por meio de um framework escalável com intervenção humana, e cada instância é acompanhada por um caminho de raciocínio de alta qualidade. O conjunto de dados é organizado em duas partes: o BMMR-Eval, que contém 20.458 instâncias de alta qualidade para avaliar de forma abrangente o conhecimento e o raciocínio dos LMMs em múltiplas disciplinas, tanto em chinês quanto em inglês; e o BMMR-Train, que contém 88.991 instâncias para apoiar pesquisas e desenvolvimentos futuros, ampliando o foco atual no raciocínio matemático para diversas disciplinas e domínios. Além disso, propomos o verificador multidisciplinar baseado em processos (ou seja, o BMMR-Verifier) para uma avaliação precisa e detalhada dos caminhos de raciocínio. Experimentos extensivos em 24 modelos revelam que (i) mesmo modelos de última geração (por exemplo, o3 e Gemini-2.5-Pro) deixam uma margem significativa de melhoria no BMMR-Eval; (ii) modelos de raciocínio exibem viés disciplinar e superam os LMMs apenas em disciplinas específicas; (iii) modelos de código aberto ainda estão atrás de suas contrapartes proprietárias; e (iv) o ajuste fino no BMMR-Train reduz essa lacuna. Adicionalmente, conduzimos análises de cadeias de raciocínio usando o BMMR-Verifier e outros estudos aprofundados, revelando os desafios que os LMMs enfrentam atualmente no raciocínio multidisciplinar. Disponibilizaremos os dados e esperamos que nosso trabalho possa oferecer insights e contribuições para a comunidade.
As capacidades fundamentais dos grandes modelos de linguagem (LLMs) são profundamente influenciadas pela qualidade de seus corpora de pré-treinamento. No entanto, aprimorar a qualidade dos dados em escala continua sendo um desafio significativo, principalmente devido à relação de compromisso entre a eficácia do refinamento e a eficiência do processamento. Embora a filtragem baseada em regras permaneça o paradigma dominante, ela geralmente opera no nível do documento e carece da granularidade necessária para refinar conteúdos específicos dentro dos documentos. Inspirados por trabalhos emergentes, como o ProX, propomos o RefineX, uma nova estrutura para o refinamento cirúrgico em larga escala de dados de pré-treinamento por meio de tarefas de edição programática. O RefineX permite um refinamento de dados eficiente e de alta granularidade, preservando de forma confiável a diversidade e a naturalidade do texto bruto. A principal força do RefineX reside em destilar resultados de refinamento de ponta a ponta de alta qualidade, guiados por especialistas, em programas mínimos de deleção baseados em edições. Esse pipeline de destilação de alta precisão é usado para treinar um modelo de refinamento eficiente e confiável, capaz de melhorar sistematicamente cada instância do corpus em escala. Avaliamos o RefineX em pré-treinamentos do zero em múltiplas escalas de modelos e constatamos que ele supera consistentemente modelos treinados com dados brutos, filtrados ou refinados alternativamente em diversas tarefas subsequentes. No modelo de 750M, o RefineX proporciona ganhos médios de 2,6% a 7,2% em tarefas do lighteval e alcança desempenho comparável utilizando significativamente menos tokens de treinamento. Análises adicionais mostram que o RefineX aprimora de forma confiável a qualidade do texto com alta eficiência e precisão, superando abordagens anteriores, como a geração de ponta a ponta e o Prox-C. Esses resultados posicionam o RefineX como uma solução escalável, eficaz e confiável para otimizar dados de pré-treinamento em pipelines modernos de LLMs.
Modelos de incorporação multimodal têm sido cruciais para habilitar diversas tarefas subsequentes, como similaridade semântica, recuperação de informação e agrupamento em diferentes modalidades. No entanto, as incorporações multimodais existentes, como VLM2Vec, E5-V e GME, estão predominantemente focadas em imagens naturais, com suporte limitado para outras formas visuais, como vídeos e documentos visuais. Isso restringe sua aplicabilidade em cenários do mundo real, incluindo agentes de IA, busca e recomendação multimodal e geração aumentada por recuperação (RAG). Para fechar essa lacuna, propomos o VLM2Vec-V2, uma estrutura unificada para aprender incorporações em diversas formas visuais. Primeiro, introduzimos o MMEB-V2, um benchmark abrangente que estende o MMEB com cinco novos tipos de tarefas: recuperação de documentos visuais, recuperação de vídeos, localização temporal, classificação de vídeos e resposta a perguntas em vídeos - abrangendo entradas de texto, imagem, vídeo e documentos visuais. Em seguida, treinamos o VLM2Vec-V2, um modelo de incorporação de propósito geral que suporta entradas de texto, imagem, vídeo e documentos visuais. Experimentos extensivos mostram que o VLM2Vec-V2 alcança um desempenho forte não apenas nas novas tarefas de recuperação de vídeos e documentos, mas também melhora em relação às linhas de base anteriores nos benchmarks originais de imagens. Por meio de uma avaliação extensiva, nosso estudo oferece insights sobre a generalizabilidade de vários modelos de incorporação multimodal e destaca estratégias eficazes para o aprendizado unificado de incorporações, estabelecendo as bases para um aprendizado de representação mais escalável e adaptável tanto em pesquisas quanto em cenários do mundo real.
Investigamos se modelos de incorporação visual capturam atributos contínuos e ordinais ao longo de direções lineares, que denominamos _eixos de classificação_. Definimos um modelo como _classificável_ para um atributo se a projeção das incorporações em tal eixo preserva a ordem do atributo. Em 7 codificadores populares e 9 conjuntos de dados com atributos como idade, contagem de pessoas, pose da cabeça, estética e recência, descobrimos que muitas incorporações são inerentemente classificáveis. Surpreendentemente, um pequeno número de amostras, ou mesmo apenas dois exemplos extremos, frequentemente são suficientes para recuperar eixos de classificação significativos, sem supervisão em larga escala. Esses achados abrem novos casos de uso para classificação de imagens em bancos de dados vetoriais e motivam estudos adicionais sobre a estrutura e o aprendizado de incorporações classificáveis. Nosso código está disponível em https://github.com/aktsonthalia/rankable-vision-embeddings.
A decodificação especulativa geralmente exige um modelo de rascunho pequeno e eficiente que seja pré-treinado ou destilado offline para uma série específica de modelos alvo, como os modelos Llama ou Qwen. No entanto, em cenários de implantação online, há dois grandes desafios: 1) o uso de um modelo alvo que é incompatível com o modelo de rascunho; 2) a expectativa de melhorias de latência ao longo do uso e do tempo. Neste trabalho, propomos o OmniDraft, uma estrutura unificada que permite que um único modelo de rascunho opere com qualquer modelo alvo e se adapte dinamicamente aos dados do usuário. Introduzimos um cache de n-gramas online com ajuste fino de destilação híbrida para abordar a incompatibilidade de vocabulário entre os modelos de rascunho e alvo; e ainda melhoramos a velocidade de decodificação ao aproveitar técnicas de rascunho adaptativo. O OmniDraft é particularmente adequado para aplicações de LLM em dispositivos onde o custo do modelo, a eficiência e a personalização do usuário são os principais pontos de discussão. Isso destaca ainda mais a necessidade de enfrentar os desafios mencionados e motiva o paradigma de "um rascunho para todos". Demonstramos a proficiência da estrutura OmniDraft ao realizar aprendizado online em tarefas de raciocínio matemático, codificação e geração de texto. Notavelmente, o OmniDraft permite que um único modelo Llama-68M seja emparelhado com vários modelos alvo, incluindo Vicuna-7B, Qwen2-7B e Llama3-8B, para decodificação especulativa; e ainda proporciona uma aceleração de até 1,5 a 2 vezes.
Documentos históricos representam um patrimônio cultural inestimável, mas sofreram degradação significativa ao longo do tempo devido a rasgos, erosão por água e oxidação. Os métodos existentes de Restauração de Documentos Históricos (HDR, na sigla em inglês) concentram-se principalmente em restaurações de modalidade única ou de tamanho limitado, não atendendo às necessidades práticas. Para preencher essa lacuna, apresentamos um conjunto de dados de HDR de página inteira (FPHDR) e uma nova solução automatizada de HDR (AutoHDR). Especificamente, o FPHDR compreende 1.633 imagens reais e 6.543 imagens sintéticas com localizações em nível de caractere e de linha, além de anotações de caracteres em diferentes graus de dano. O AutoHDR imita os fluxos de trabalho de restauração dos historiadores por meio de uma abordagem em três estágios: localização de danos assistida por OCR, previsão de texto contextual visão-linguagem e restauração de aparência autoregressiva em patches. A arquitetura modular do AutoHDR permite uma colaboração perfeita entre humano e máquina, possibilitando intervenção e otimização flexíveis em cada estágio de restauração. Experimentos demonstram o desempenho notável do AutoHDR em HDR. Ao processar documentos severamente danificados, nosso método melhora a precisão do OCR de 46,83% para 84,05%, com um aprimoramento adicional para 94,25% por meio da colaboração humano-máquina. Acreditamos que este trabalho representa um avanço significativo na restauração automatizada de documentos históricos e contribui substancialmente para a preservação do patrimônio cultural. O modelo e o conjunto de dados estão disponíveis em https://github.com/SCUT-DLVCLab/AutoHDR.
Os métodos de segmentação baseados em Neural Radiance Field (NeRF) concentram-se na semântica de objetos e dependem exclusivamente de dados RGB, carecendo de propriedades intrínsecas de materiais. Essa limitação restringe a percepção precisa de materiais, que é crucial para robótica, realidade aumentada, simulação e outras aplicações. Apresentamos o UnMix-NeRF, um framework que integra a separação espectral ao NeRF, permitindo a síntese de novas vistas hiperspectrais e a segmentação de materiais não supervisionada de forma conjunta. Nosso método modela a reflectância espectral por meio de componentes difusos e especulares, onde um dicionário aprendido de endmembers globais representa assinaturas puras de materiais, e as abundâncias por ponto capturam sua distribuição. Para a segmentação de materiais, utilizamos previsões de assinaturas espectrais ao longo dos endmembers aprendidos, permitindo o agrupamento não supervisionado de materiais. Além disso, o UnMix-NeRF possibilita a edição de cenas ao modificar os dicionários de endmembers aprendidos para uma manipulação flexível da aparência baseada em materiais. Experimentos extensivos validam nossa abordagem, demonstrando reconstrução espectral e segmentação de materiais superiores aos métodos existentes. Página do projeto: https://www.factral.co/UnMix-NeRF.
Os benchmarks recentes para agentes de Modelos de Linguagem de Grande Escala (LLM) concentram-se principalmente na avaliação de capacidades de raciocínio, planejamento e execução, enquanto outro componente crítico — a memória, que abrange como os agentes memorizam, atualizam e recuperam informações de longo prazo — é subavaliado devido à falta de benchmarks. Denominamos agentes com mecanismos de memória como agentes de memória. Neste artigo, identificamos quatro competências essenciais para agentes de memória: recuperação precisa, aprendizado em tempo de teste, compreensão de longo alcance e resolução de conflitos. Os conjuntos de dados existentes ou dependem de comprimentos de contexto limitados ou são adaptados para configurações estáticas de contexto longo, como perguntas e respostas baseadas em livros, que não refletem a natureza interativa e de múltiplos turnos dos agentes de memória que acumulam informações de forma incremental. Além disso, nenhum benchmark existente cobre todas as quatro competências. Portanto, introduzimos o MemoryAgentBench, um novo benchmark especificamente projetado para agentes de memória. Nosso benchmark combina conjuntos de dados existentes reformulados com novos, cobrindo as quatro competências de memória mencionadas, proporcionando um ambiente de teste sistemático e desafiador para avaliar a qualidade da memória. Avaliamos um conjunto diversificado de agentes de memória, desde sistemas simples baseados em contexto e geração aumentada por recuperação (RAG) até agentes avançados com módulos de memória externa e integração de ferramentas. Os resultados empíricos revelam que os métodos atuais não dominam todas as quatro competências, destacando a necessidade de mais pesquisas sobre mecanismos de memória abrangentes para agentes LLM.
Apresentamos o PresentAgent, um agente multimodal que transforma documentos extensos em vídeos de apresentação narrados. Enquanto as abordagens existentes se limitam a gerar slides estáticos ou resumos textuais, nosso método avança além dessas limitações ao produzir conteúdo visual e falado totalmente sincronizado que imita de perto apresentações no estilo humano. Para alcançar essa integração, o PresentAgent emprega um pipeline modular que segmenta sistematicamente o documento de entrada, planeja e renderiza quadros visuais no estilo de slides, gera narração falada contextualizada com modelos de linguagem de grande escala e modelos de Texto para Fala, e compõe de forma fluida o vídeo final com um alinhamento preciso entre áudio e vídeo. Dada a complexidade de avaliar tais saídas multimodais, introduzimos o PresentEval, uma estrutura de avaliação unificada alimentada por Modelos de Visão-Linguagem que pontua de forma abrangente os vídeos em três dimensões críticas: fidelidade do conteúdo, clareza visual e compreensão do público por meio de avaliação baseada em prompts. Nossa validação experimental em um conjunto de dados curados de 30 pares de documento-apresentação demonstra que o PresentAgent se aproxima da qualidade humana em todas as métricas de avaliação. Esses resultados destacam o potencial significativo de agentes multimodais controláveis na transformação de materiais textuais estáticos em formatos de apresentação dinâmicos, eficazes e acessíveis. O código estará disponível em https://github.com/AIGeeksGroup/PresentAgent.
As capacidades gerativas dos Modelos de Linguagem de Grande Escala (LLMs) estão se expandindo rapidamente de código estático para artefatos visuais dinâmicos e interativos. Esse progresso é limitado por uma lacuna crítica de avaliação: os benchmarks estabelecidos focam na correção algorítmica e são cegos para a fidelidade visual e a integridade interativa que definem as experiências de usuário modernas. Para preencher essa lacuna, introduzimos o ArtifactsBench, um novo benchmark e paradigma para a avaliação automatizada e multimodal da geração de código visual. Nosso framework renderiza programaticamente cada artefato gerado e captura seu comportamento dinâmico por meio de capturas de tela temporais. Essa evidência visual, juntamente com o código-fonte, é então avaliada por um Modelo de Linguagem Multimodal (MLLM)-como-Juiz, que é rigorosamente guiado por uma lista de verificação detalhada e específica para cada tarefa, garantindo uma pontuação holística e reproduzível. Construímos um novo benchmark com 1.825 tarefas diversas e avaliamos mais de 30 LLMs líderes. Nossa avaliação automatizada alcança uma impressionante consistência de 94,4% com o WebDev Arena, o padrão ouro para preferência humana em desenvolvimento web, e mais de 90% de concordância pareada com especialistas humanos. Isso estabelece o ArtifactsBench como o primeiro framework a automatizar de forma confiável a avaliação da qualidade percebida por humanos em escala. Nossa análise fornece um mapa de alta resolução do estado da arte atual, revelando que modelos generalistas frequentemente superam os específicos de domínio. Disponibilizamos o ArtifactsBench como código aberto, incluindo o benchmark, o sistema de avaliação e os resultados de linha de base em https://artifactsbenchmark.github.io/, para fornecer à comunidade uma ferramenta escalável e precisa para acelerar o desenvolvimento de modelos generativos centrados no usuário.
Contexto: A documentação clínica representa um fardo significativo para os profissionais de saúde, com médicos gastando até 2 horas diárias em tarefas administrativas. Avanços recentes em modelos de linguagem de grande escala (LLMs) oferecem soluções promissoras, mas preocupações com privacidade e requisitos computacionais limitam sua adoção em ambientes de saúde. Objetivo: Desenvolver e avaliar um sistema de transcrição médica que preserve a privacidade e opere diretamente no dispositivo, utilizando um modelo Llama 3.2 1B ajustado, capaz de gerar notas médicas estruturadas a partir de transcrições médicas, mantendo a soberania completa dos dados inteiramente no navegador. Métodos: Ajustamos um modelo Llama 3.2 1B utilizando Fine-Tuning Eficiente em Parâmetros (PEFT) com LoRA em 1.500 pares sintéticos de transcrição médica e notas estruturadas. O modelo foi avaliado em comparação com o modelo base Llama 3.2 1B em dois conjuntos de dados: 100 transcrições de endocrinologia e 140 casos modificados do benchmark ACI. A avaliação empregou métricas estatísticas (ROUGE, BERTScore, BLEURT) e avaliações LLM-como-juiz em múltiplas dimensões de qualidade clínica. Resultados: O modelo OnDevice ajustado demonstrou melhorias substanciais em relação ao modelo base. No benchmark ACI, os escores ROUGE-1 aumentaram de 0,346 para 0,496, enquanto o F1 do BERTScore melhorou de 0,832 para 0,866. As avaliações de qualidade clínica mostraram uma redução marcante em alucinações maiores (de 85 para 35 casos) e uma melhoria na correção factual (de 2,81 para 3,54 em uma escala de 5 pontos). Melhorias semelhantes foram observadas no conjunto de dados de avaliação interno, com escores compostos aumentando de 3,13 para 4,43 (+41,5%). Conclusões: O ajuste fino de LLMs compactos para transcrição médica resulta em melhorias clinicamente significativas, permitindo a implantação completa no navegador diretamente no dispositivo. Essa abordagem aborda barreiras-chave para a adoção de IA na saúde: preservação da privacidade, redução de custos e acessibilidade para ambientes com recursos limitados.
O treinamento de modelos generativos nativos de texturas 3D continua sendo um problema fundamental, porém desafiador, principalmente devido à disponibilidade limitada de conjuntos de dados de texturas 3D em grande escala e de alta qualidade. Essa escassez dificulta a generalização para cenários do mundo real. Para lidar com isso, a maioria dos métodos existentes ajusta modelos generativos de imagens de base para explorar seus priors visuais aprendidos. No entanto, essas abordagens geralmente geram apenas imagens de múltiplas vistas e dependem de pós-processamento para produzir mapas de textura UV — uma representação essencial nos pipelines gráficos modernos. Esses pipelines de duas etapas frequentemente sofrem com acúmulo de erros e inconsistências espaciais na superfície 3D. Neste artigo, introduzimos o SeqTex, uma nova estrutura end-to-end que aproveita o conhecimento visual codificado em modelos de base de vídeo pré-treinados para gerar diretamente mapas de textura UV completos. Diferente de métodos anteriores que modelam a distribuição de texturas UV de forma isolada, o SeqTex reformula a tarefa como um problema de geração de sequência, permitindo que o modelo aprenda a distribuição conjunta de renderizações de múltiplas vistas e texturas UV. Esse design transfere efetivamente os priors consistentes do espaço de imagem dos modelos de base de vídeo para o domínio UV. Para melhorar ainda mais o desempenho, propomos várias inovações arquitetônicas: um design de ramificação desacoplada para múltiplas vistas e UV, atenção informada por geometria para guiar o alinhamento de características entre domínios, e resolução adaptativa de tokens para preservar detalhes finos de textura enquanto mantém a eficiência computacional. Juntos, esses componentes permitem que o SeqTex utilize totalmente os priors de vídeo pré-treinados e sintetize mapas de textura UV de alta fidelidade sem a necessidade de pós-processamento. Experimentos extensivos mostram que o SeqTex alcança desempenho state-of-the-art em tarefas de geração de texturas 3D condicionadas por imagem e por texto, com consistência 3D superior, alinhamento textura-geometria e generalização para o mundo real.
A extração de relações (RE) é uma tarefa fundamental no processamento de linguagem natural. Abordagens tradicionais geralmente enquadram a RE como um problema de aprendizado supervisionado, mapeando diretamente o contexto para rótulos — uma abordagem que frequentemente sofre com a generalização inadequada fora do domínio (OOD). Inspirados pelo fluxo de trabalho de anotadores humanos, reformulamos a RE como uma tarefa de raciocínio guiada por diretrizes de anotação e introduzimos o R1-RE, o primeiro framework de aprendizado por reforço com recompensa verificável (RLVR) para tarefas de RE. Nosso método estimula as habilidades de raciocínio de modelos de linguagem menores para tarefas de anotação, resultando em uma robustez OOD significativamente aprimorada. Avaliamos nossa abordagem no conjunto de dados público Sem-2010 e em um conjunto de dados privado MDKG. O modelo R1-RE-7B atinge uma precisão OOD média de aproximadamente 70%, equiparando-se a modelos proprietários líderes, como o GPT-4o. Além disso, nossa análise abrangente fornece novos insights sobre a dinâmica de treinamento e os comportamentos emergentes de raciocínio do paradigma RLVR para RE.
Este artigo apresenta o VLAI, um modelo baseado em transformers que prevê níveis de gravidade de vulnerabilidades de software diretamente a partir de descrições textuais. Construído sobre o RoBERTa, o VLAI é ajustado em mais de 600.000 vulnerabilidades do mundo real e alcança mais de 82% de precisão na previsão de categorias de gravidade, permitindo uma triagem mais rápida e consistente antes da pontuação manual do CVSS. O modelo e o conjunto de dados são de código aberto e estão integrados ao serviço Vulnerability-Lookup.
Métodos recentes de edição de imagens baseados em difusão avançaram significativamente em tarefas guiadas por texto, mas frequentemente lutam para interpretar instruções complexas e indiretas. Além disso, os modelos atuais frequentemente sofrem com a má preservação de identidade, edições não intencionais ou dependem fortemente de máscaras manuais. Para enfrentar esses desafios, apresentamos o X-Planner, um sistema de planejamento baseado em Modelos de Linguagem Multimodais de Grande Escala (MLLM) que efetivamente conecta a intenção do usuário com as capacidades do modelo de edição. O X-Planner emprega raciocínio em cadeia de pensamento para decompor sistematicamente instruções complexas em sub-instruções mais simples e claras. Para cada sub-instrução, o X-Planner gera automaticamente tipos de edição precisos e máscaras de segmentação, eliminando a intervenção manual e garantindo edições localizadas que preservam a identidade. Adicionalmente, propomos um novo pipeline automatizado para gerar dados em larga escala para treinar o X-Planner, que alcança resultados de ponta tanto em benchmarks existentes quanto em nosso novo benchmark de edição complexa.
Modelos de linguagem de grande escala (LLMs) estão sendo cada vez mais encarregados de invocar APIs empresariais, mas frequentemente falham quando ferramentas quase duplicadas competem pela mesma intenção do usuário ou quando argumentos necessários são deixados subespecificados. Apresentamos o DiaFORGE (Framework de Diálogo para Geração e Avaliação de Resposta Orgânica), um pipeline de três etapas centrado na desambiguação que (i) sintetiza diálogos de múltiplas voltas orientados por persona, nos quais o assistente deve distinguir entre ferramentas altamente semelhantes, (ii) realiza ajuste fino supervisionado de modelos de código aberto com rastreamentos de raciocínio em escalas de 3B a 70B parâmetros, e (iii) avalia a prontidão para o mundo real por meio de um conjunto dinâmico que reimplanta cada modelo em um loop agente ativo e relata a conclusão de metas de ponta a ponta juntamente com métricas estáticas convencionais. Em nosso benchmark dinâmico DiaBENCH, modelos treinados com o DiaFORGE aumentam a taxa de sucesso na invocação de ferramentas em 27 pp em relação ao GPT-4o e em 49 pp em relação ao Claude-3.5-Sonnet, ambos sob prompts otimizados. Para estimular pesquisas adicionais, disponibilizamos um corpus aberto de 5000 especificações de APIs empresariais de nível de produção, emparelhadas com diálogos rigorosamente validados e focados em desambiguação, oferecendo um plano prático para a construção de agentes confiáveis e prontos para o ambiente empresarial que realizam chamadas de ferramentas.
Modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em diversas tarefas, mas sua habilidade de prever eventos futuros permanece pouco estudada. Um ano atrás, os grandes modelos de linguagem lutavam para se aproximar da precisão de uma multidão humana. Avalio os LLMs de última geração em 464 questões de previsão do Metaculus, comparando seu desempenho com o de superprevisores humanos. Os modelos de ponta alcançam escores de Brier que aparentemente superam a multidão humana, mas ainda apresentam um desempenho significativamente inferior ao de um grupo de superprevisores.
À medida que os sistemas de Inteligência Artificial evoluem de modelos monolíticos para ecossistemas de agentes especializados, a necessidade de protocolos de comunicação padronizados torna-se cada vez mais crítica. Este artigo apresenta o MOD-X (Modular Open Decentralized eXchange), uma nova proposta de framework arquitetônico para interoperabilidade de agentes que aborda as principais limitações dos protocolos existentes. Diferente das abordagens atuais, o MOD-X propõe uma arquitetura em camadas com um Barramento de Mensagens Universal, gerenciamento de estado detalhado, capacidades de tradução e mecanismos de segurança baseados em blockchain. Apresentamos a arquitetura do MOD-X, comparamos com protocolos existentes e demonstramos sua aplicação por meio de um exemplo prático de como ele possibilita a integração entre agentes especializados heterogêneos (agentes com diferentes arquiteturas, fornecedores, capacidades e representações de conhecimento—incluindo sistemas baseados em regras, redes neurais, motores de raciocínio simbólico e softwares legados com wrappers de agentes). As principais inovações do MOD-X incluem um modelo de comunicação publish-subscribe, descoberta semântica de capacidades e orquestração dinâmica de fluxos de trabalho—fornecendo um framework que conecta formalismo teórico com implementação prática. Essa arquitetura atende à crescente necessidade de ecossistemas de agentes verdadeiramente descentralizados e interoperáveis que possam escalar de forma eficaz sem a necessidade de coordenação central.