Artigos de pesquisa em IA selecionados diariamente com traduções
Aprimorar modelos existentes com novos conhecimentos é um aspecto crucial do desenvolvimento de IA. Este artigo introduz um método inovador para integrar um novo idioma em um modelo de linguagem de grande escala (LLM, na sigla em inglês). Nossa abordagem incorpora com sucesso um idioma-alvo previamente desconhecido em um LLM existente sem comprometer seu conhecimento prévio. Treinamos um modelo compacto com 1,5 bilhão de parâmetros, chamado Kuwain, ao injetar o idioma árabe em um pequeno modelo de código aberto treinado principalmente em inglês. Nosso método demonstra melhorias significativas no desempenho do idioma árabe, com um aumento médio de 8% em vários benchmarks, enquanto mantém o conhecimento existente do modelo com uma quantidade mínima dos dados originais. Isso oferece uma alternativa econômica ao treinamento de um modelo abrangente em inglês e árabe. Os resultados destacam o potencial para uma expansão eficiente e direcionada de modelos de linguagem sem a necessidade de retreinamento extensivo ou processos intensivos em recursos.
Este artigo investiga o Aprendizado por Reforço (RL) em dados sem rótulos explícitos para tarefas de raciocínio em Modelos de Linguagem de Grande Escala (LLMs). O principal desafio do problema é a estimativa de recompensa durante a inferência, sem acesso a informações de verdade absoluta. Embora esse cenário pareça evasivo, descobrimos que práticas comuns em Escalonamento em Tempo de Teste (TTS), como votação majoritária, produzem recompensas surpreendentemente eficazes, adequadas para impulsionar o treinamento de RL. Neste trabalho, introduzimos o Aprendizado por Reforço em Tempo de Teste (TTRL), um método inovador para treinar LLMs usando RL em dados não rotulados. O TTRL permite a auto-evolução dos LLMs ao utilizar os conhecimentos prévios dos modelos pré-treinados. Nossos experimentos demonstram que o TTRL melhora consistentemente o desempenho em uma variedade de tarefas e modelos. Notavelmente, o TTRL aumenta o desempenho pass@1 do Qwen-2.5-Math-7B em aproximadamente 159% no AIME 2024, utilizando apenas dados de teste não rotulados. Além disso, embora o TTRL seja supervisionado apenas pela métrica Maj@N, ele demonstrou um desempenho que consistentemente ultrapassa o limite superior do modelo inicial e se aproxima do desempenho de modelos treinados diretamente em dados de teste com rótulos de verdade absoluta. Nossas descobertas experimentais validam a eficácia geral do TTRL em várias tarefas e destacam o potencial do TTRL para tarefas e domínios mais amplos. GitHub: https://github.com/PRIME-RL/TTRL
À medida que os grandes modelos de linguagem (LLMs) continuam a avançar em suas capacidades linguísticas, a avaliação multilíngue robusta tornou-se essencial para promover um progresso tecnológico equitativo. Este artigo de posicionamento examina mais de 2.000 benchmarks multilíngues (não ingleses) de 148 países, publicados entre 2021 e 2024, para avaliar práticas passadas, presentes e futuras em benchmarking multilíngue. Nossas descobertas revelam que, apesar de investimentos significativos que totalizam dezenas de milhões de dólares, o inglês permanece substancialmente superrepresentado nesses benchmarks. Além disso, a maioria dos benchmarks depende de conteúdo original no idioma em vez de traduções, com a maior parte proveniente de países de alta disponibilidade de recursos, como China, Índia, Alemanha, Reino Unido e EUA. Adicionalmente, uma comparação do desempenho dos benchmarks com julgamentos humanos destaca disparidades notáveis. Tarefas relacionadas a STEM exibem fortes correlações com avaliações humanas (0,70 a 0,85), enquanto tarefas tradicionais de PLN, como resposta a perguntas (por exemplo, XQuAD), mostram correlações muito mais fracas (0,11 a 0,30). Além disso, a tradução de benchmarks em inglês para outros idiomas se mostra insuficiente, já que benchmarks localizados demonstram um alinhamento significativamente maior com julgamentos humanos locais (0,68) em comparação com suas contrapartes traduzidas (0,47). Isso ressalta a importância de criar benchmarks cultural e linguisticamente adaptados, em vez de depender exclusivamente de traduções. Por meio dessa análise abrangente, destacamos seis limitações principais nas práticas atuais de avaliação multilíngue, propomos os princípios orientadores para um benchmarking multilíngue eficaz e delineamos cinco direções críticas de pesquisa para impulsionar o progresso no campo. Por fim, convocamos um esforço colaborativo global para desenvolver benchmarks alinhados com os humanos que priorizem aplicações do mundo real.
Gerar descrições detalhadas e precisas para regiões específicas em imagens e vídeos continua sendo um desafio fundamental para os modelos de visão e linguagem. Apresentamos o Describe Anything Model (DAM), um modelo projetado para legendagem localizada detalhada (DLC). O DAM preserva tanto os detalhes locais quanto o contexto global por meio de duas inovações principais: um prompt focal, que garante uma codificação de alta resolução das regiões alvo, e um backbone de visão localizada, que integra a localização precisa com seu contexto mais amplo. Para enfrentar a escassez de dados de alta qualidade para DLC, propomos um Pipeline de Dados baseado em Aprendizado Semi-supervisionado (SSL), denominado DLC-SDP. O DLC-SDP começa com conjuntos de dados de segmentação existentes e se expande para imagens da web não rotuladas usando SSL. Introduzimos o DLC-Bench, um benchmark projetado para avaliar DLC sem depender de legendas de referência. O DAM estabelece novos recordes de estado da arte em 7 benchmarks que abrangem legendagem localizada em nível de palavra-chave, frase e múltiplas sentenças detalhadas para imagens e vídeos.
A escalabilidade da computação durante a inferência melhorou substancialmente as capacidades de raciocínio dos modelos de linguagem. No entanto, os métodos existentes apresentam limitações significativas: abordagens serializadas de cadeia de pensamento geram saídas excessivamente longas, levando a maior latência e ao esgotamento das janelas de contexto, enquanto métodos paralelos, como a autoconsistência, sofrem com coordenação insuficiente, resultando em computações redundantes e ganhos de desempenho limitados. Para superar essas deficiências, propomos o Raciocínio Paralelo Adaptativo (APR), uma nova estrutura de raciocínio que permite aos modelos de linguagem orquestrar computações serializadas e paralelas de ponta a ponta. O APR generaliza métodos de raciocínio existentes ao permitir inferência multi-thread adaptativa usando operações de spawn() e join(). Uma inovação fundamental é nossa estratégia de aprendizado por reforço de ponta a ponta, que otimiza tanto os threads de inferência principais quanto os secundários para aumentar a taxa de sucesso da tarefa sem exigir estruturas de raciocínio predefinidas. Experimentos na tarefa de raciocínio Countdown demonstram benefícios significativos do APR: (1) maior desempenho dentro da mesma janela de contexto (83,4% vs. 60,0% em 4k de contexto); (2) escalabilidade superior com aumento da computação (80,1% vs. 66,6% em 20k tokens totais); (3) precisão aprimorada com latência equivalente (75,2% vs. 57,3% em aproximadamente 5.000ms). O APR representa um passo em direção à capacidade dos modelos de linguagem de otimizar autonomamente seus processos de raciocínio por meio da alocação adaptativa de computação.
Modelos recentes de linguagem de grande escala para vídeo (Video LLMs) frequentemente dependem de anotações humanas custosas ou APIs de modelos proprietários (por exemplo, GPT-4o) para gerar dados de treinamento, o que limita seu treinamento em larga escala. Neste artigo, exploramos o treinamento em grande escala para Video LLMs utilizando transcrições baratas de reconhecimento automático de fala (ASR). Especificamente, propomos uma nova abordagem de treinamento em fluxo que intercala densamente as palavras do ASR e os quadros de vídeo de acordo com seus timestamps. Em comparação com estudos anteriores em representação visão-linguagem com ASR, nosso método se ajusta naturalmente às características de fluxo do ASR, permitindo que o modelo aprenda modelagem visão-linguagem temporalmente alinhada e de granularidade fina. Para suportar o algoritmo de treinamento, introduzimos um pipeline de produção de dados para processar vídeos do YouTube e suas legendas ocultas (CC, equivalentes ao ASR), resultando no conjunto de dados Live-CC-5M para pré-treinamento e no conjunto de dados Live-WhisperX-526K para ajuste fino supervisionado (SFT) de alta qualidade. Notavelmente, mesmo sem SFT, o modelo LiveCC-7B-Base pré-treinado apenas com ASR demonstra desempenho competitivo em QA geral de vídeo e exibe uma nova capacidade em comentários em tempo real de vídeo. Para avaliar isso, projetamos cuidadosamente um novo benchmark LiveSports-3K, utilizando LLM-como-juiz para medir o comentário de forma livre. Experimentos mostram que nosso modelo final LiveCC-7B-Instruct pode superar modelos avançados de 72B (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) em qualidade de comentário, mesmo operando em modo de tempo real. Enquanto isso, ele alcança resultados de ponta na escala 7B/8B em benchmarks populares de QA de vídeo, como VideoMME e OVOBench, demonstrando a ampla generalizabilidade de nossa abordagem. Todos os recursos deste artigo foram liberados em https://showlab.github.io/livecc.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) têm possibilitado a simulação social por meio de sistemas multiagentes. Esforços anteriores concentram-se em sociedades de agentes criadas do zero, atribuindo aos agentes personas recém-definidas. No entanto, a simulação de mundos e personagens fictícios estabelecidos permanece amplamente inexplorada, apesar de seu significativo valor prático. Neste artigo, apresentamos o BookWorld, um sistema abrangente para a construção e simulação de sociedades multiagentes baseadas em livros. O design do BookWorld abrange complexidades do mundo real, incluindo personagens diversos e dinâmicos, visões de mundo fictícias, restrições e mudanças geográficas, entre outros. O BookWorld possibilita diversas aplicações, incluindo geração de histórias, jogos interativos e simulação social, oferecendo novas maneiras de estender e explorar obras fictícias amadas. Por meio de extensos experimentos, demonstramos que o BookWorld gera histórias criativas e de alta qualidade, mantendo a fidelidade aos livros de origem, superando métodos anteriores com uma taxa de vitória de 75,36%. O código deste artigo pode ser encontrado na página do projeto: https://bookworld2025.github.io/.
Os frameworks de avaliação existentes para Modelos de Linguagem Multimodais de Grande Escala (MLLMs) concentram-se principalmente em tarefas de raciocínio com imagens ou compreensão geral de vídeos, negligenciando em grande parte o papel significativo do contexto da imagem na compreensão de vídeos. Para preencher essa lacuna, propomos o IV-Bench, o primeiro benchmark abrangente para avaliar a Percepção e o Raciocínio em Vídeos com Base em Imagens. O IV-Bench consiste em 967 vídeos emparelhados com 2.585 consultas imagem-texto meticulosamente anotadas, abrangendo 13 tarefas (7 de percepção e 6 de raciocínio) e 5 categorias representativas. Avaliações extensas de MLLMs de código aberto de ponta (por exemplo, InternVL2.5, Qwen2.5-VL) e de código fechado (por exemplo, GPT-4o, Gemini2-Flash e Gemini2-Pro) demonstram que os modelos atuais têm um desempenho substancialmente inferior em Percepção e Raciocínio em vídeos com base em imagens, alcançando no máximo 28,9% de precisão. Uma análise mais aprofundada revela fatores-chave que influenciam o desempenho dos modelos no IV-Bench, incluindo padrão de inferência, número de quadros e resolução. Além disso, por meio de uma abordagem simples de síntese de dados, demonstramos que os desafios do IV-Bench vão além do mero alinhamento do formato dos dados no processo de treinamento. Essas descobertas fornecem coletivamente insights valiosos para pesquisas futuras. Nossos códigos e dados estão disponíveis em https://github.com/multimodal-art-projection/IV-Bench.
O sucesso dos Modelos de Linguagem de Grande Escala (LLMs) despertou interesse em várias aplicações agentivas. Uma hipótese fundamental é que os LLMs, ao aproveitar o senso comum e o raciocínio em Cadeia de Pensamento (CoT), podem explorar e resolver de forma eficiente domínios complexos. No entanto, constatou-se que os agentes baseados em LLMs sofrem com exploração subótima e a lacuna entre saber e agir, ou seja, a incapacidade de agir efetivamente com base no conhecimento presente no modelo. Neste trabalho, estudamos sistematicamente por que os LLMs têm desempenho subótimo em cenários de tomada de decisão. Em particular, examinamos de perto três modos de falha prevalentes: a ganância, o viés de frequência e a lacuna entre saber e agir. Propomos a mitigação dessas deficiências por meio de ajuste fino via Aprendizado por Reforço (RL) em racionais CoT autogerados. Nossos experimentos em bandidos multi-armados, bandidos contextuais e jogo da velha demonstram que o ajuste fino com RL aprimora as habilidades de tomada de decisão dos LLMs, aumentando a exploração e reduzindo a lacuna entre saber e agir. Por fim, estudamos tanto mecanismos clássicos de exploração, como o epsilon-ganancioso, quanto abordagens específicas para LLMs, como autocorreção e autoconsistência, para permitir um ajuste fino mais eficaz dos LLMs para tomada de decisão.
Podemos construir modelos de mundo precisos a partir de grandes modelos de linguagem (LLMs)? Como os modelos de mundo podem beneficiar agentes baseados em LLMs? A lacuna entre o conhecimento prévio dos LLMs e a dinâmica de um ambiente específico geralmente limita o desempenho dos LLMs como modelos de mundo. Para preencher essa lacuna, propomos um método de "alinhamento de mundo" sem treinamento, que aprende o conhecimento simbólico de um ambiente complementar aos LLMs. Esse conhecimento simbólico abrange regras de ação, grafos de conhecimento e grafos de cena, que são extraídos pelos LLMs a partir de trajetórias de exploração e codificados em códigos executáveis para regular as políticas dos agentes baseados em LLMs. Além disso, propomos um agente baseado em modelo, "WALL-E 2.0", sem uso de aprendizado por reforço (RL), utilizando o framework de controle preditivo por modelo (MPC). Diferente do MPC clássico, que requer otimização custosa em tempo real, adotamos um agente LLM como um otimizador eficiente de ações futuras, interagindo com o modelo de mundo neurosimbólico. Enquanto as heurísticas robustas do agente LLM o tornam um planejador eficiente no MPC, a qualidade de suas ações planejadas também é garantida pelas previsões precisas do modelo de mundo alinhado. Juntos, eles melhoram consideravelmente a eficiência de aprendizado em um novo ambiente. Em desafios de mundo aberto em Mars (semelhante ao Minecraft) e ALFWorld (ambientes internos corporificados), o WALL-E 2.0 supera significativamente os métodos existentes, por exemplo, ultrapassando as linhas de base em Mars em 16,1%-51,6% na taxa de sucesso e em pelo menos 61,7% na pontuação. No ALFWorld, ele alcança um novo recorde de 98% de taxa de sucesso após apenas 4 iterações.
Avanços recentes em modelos de linguagem de grande escala demonstraram a eficácia do escalonamento de comprimento durante o pós-treinamento, mas seu potencial no pré-treinamento permanece pouco explorado. Apresentamos o Parallel Hidden Decoding Transformer (PHD-Transformer), uma estrutura inovadora que permite o escalonamento eficiente de comprimento durante o pré-treinamento, mantendo a eficiência na inferência. O PHD-Transformer alcança isso por meio de uma estratégia inovadora de gerenciamento de cache KV que distingue entre tokens originais e tokens de decodificação oculta. Ao reter apenas o cache KV dos tokens originais para dependências de longo alcance e descartar imediatamente os tokens de decodificação oculta após o uso, nossa abordagem mantém o mesmo tamanho de cache KV que o transformer convencional, permitindo um escalonamento eficaz de comprimento. Para aprimorar ainda mais o desempenho, introduzimos duas variantes otimizadas: o PHD-SWA emprega atenção de janela deslizante para preservar dependências locais, enquanto o PHD-CSWA implementa atenção de janela deslizante em blocos para eliminar o crescimento linear no tempo de pré-preenchimento. Experimentos extensivos demonstram melhorias consistentes em vários benchmarks.
A síntese de imagens personalizadas emergiu como uma aplicação fundamental na geração de imagens a partir de texto, permitindo a criação de imagens que apresentam assuntos específicos em diversos contextos. Embora os modelos de difusão tenham dominado esse domínio, os modelos auto-regressivos, com sua arquitetura unificada para modelagem de texto e imagem, permanecem pouco explorados para a geração de imagens personalizadas. Este artigo investiga o potencial de otimizar modelos auto-regressivos para síntese de imagens personalizadas, aproveitando suas capacidades multimodais inerentes para realizar essa tarefa. Propomos uma estratégia de treinamento em duas etapas que combina a otimização de embeddings de texto e o ajuste fino de camadas de transformadores. Nossos experimentos com o modelo auto-regressivo demonstram que esse método alcança fidelidade ao assunto e aderência ao prompt comparáveis aos principais métodos de personalização baseados em difusão. Os resultados destacam a eficácia dos modelos auto-regressivos na geração de imagens personalizadas, oferecendo uma nova direção para pesquisas futuras nessa área.
Os seres humanos podem desenvolver modelos internos do mundo que codificam conhecimento de senso comum, informando-lhes como o mundo funciona e prevendo as consequências de suas ações. Esse conceito surgiu como uma direção promissora para estabelecer modelos de aprendizado de máquina de propósito geral em trabalhos preliminares recentes, por exemplo, para aprendizado de representação visual. Neste artigo, apresentamos o CheXWorld, o primeiro esforço em direção a um modelo de mundo auto-supervisionado para imagens radiográficas. Especificamente, nosso trabalho desenvolve uma estrutura unificada que modela simultaneamente três aspectos do conhecimento médico essenciais para radiologistas qualificados, incluindo 1) estruturas anatômicas locais que descrevem as características detalhadas dos tecidos locais (por exemplo, arquiteturas, formas e texturas); 2) layouts anatômicos globais que descrevem a organização global do corpo humano (por exemplo, layouts de órgãos e esqueletos); e 3) variações de domínio que incentivam o CheXWorld a modelar as transições entre diferentes domínios de aparência de radiografias (por exemplo, variações de clareza, contraste e exposição causadas pela coleta de radiografias em diferentes hospitais, dispositivos ou pacientes). Empiricamente, projetamos análises qualitativas e quantitativas personalizadas, revelando que o CheXWorld captura com sucesso essas três dimensões do conhecimento médico. Além disso, experimentos de transferência de aprendizagem em oito benchmarks de classificação e segmentação de imagens médicas demonstram que o CheXWorld supera significativamente os métodos SSL existentes e os modelos de fundação médica em larga escala. Código e modelos pré-treinados estão disponíveis em https://github.com/LeapLabTHU/CheXWorld.
Modelos recentes de difusão de texto para imagem alcançam qualidade visual impressionante por meio de uma ampla escalonamento de dados de treinamento e parâmetros do modelo, mas frequentemente enfrentam dificuldades com cenas complexas e detalhes refinados. Inspirados pelas capacidades de autorreflexão emergentes em grandes modelos de linguagem, propomos o ReflectionFlow, um framework de inferência que permite que modelos de difusão reflitam e refinem iterativamente suas saídas. O ReflectionFlow introduz três eixos complementares de escalonamento durante a inferência: (1) escalonamento de nível de ruído para otimizar a inicialização latente; (2) escalonamento de nível de prompt para orientação semântica precisa; e, mais notavelmente, (3) escalonamento de nível de reflexão, que fornece explicitamente reflexões acionáveis para avaliar e corrigir iterativamente gerações anteriores. Para facilitar o escalonamento de nível de reflexão, construímos o GenRef, um conjunto de dados em larga escala composto por 1 milhão de triplas, cada uma contendo uma reflexão, uma imagem com falhas e uma imagem aprimorada. Utilizando esse conjunto de dados, realizamos de forma eficiente o ajuste de reflexão no transformer de difusão state-of-the-art, FLUX.1-dev, modelando conjuntamente entradas multimodais em um framework unificado. Resultados experimentais mostram que o ReflectionFlow supera significativamente métodos ingênuos de escalonamento de nível de ruído, oferecendo uma solução escalável e computacionalmente eficiente para síntese de imagens de alta qualidade em tarefas desafiadoras.
Os seres humanos naturalmente compartilham informações com aqueles com quem estão conectados, e o vídeo se tornou um dos principais meios de comunicação e expressão na Internet. Para apoiar a criação de conteúdo em vídeo em larga escala e de alta qualidade, um pipeline moderno requer uma compreensão abrangente tanto dos materiais de entrada brutos (por exemplo, as filmagens não editadas capturadas por câmeras) quanto dos componentes de edição (por exemplo, efeitos visuais). Em cenários de edição de vídeo, os modelos devem processar múltiplas modalidades (por exemplo, visão, áudio, texto) com um forte conhecimento de fundo e lidar com comprimentos de entrada flexíveis (por exemplo, vídeos brutos de uma hora de duração), o que representa desafios significativos para os modelos tradicionais. Neste relatório, apresentamos Vidi, uma família de Modelos Multimodais de Grande Escala (LMMs) para uma ampla gama de cenários de compreensão e edição de vídeo. A primeira versão concentra-se na recuperação temporal, ou seja, identificar os intervalos de tempo dentro dos vídeos de entrada que correspondem a uma consulta de texto fornecida, o que desempenha um papel crítico na edição inteligente. O modelo é capaz de processar vídeos de uma hora de duração com uma forte capacidade de compreensão temporal, por exemplo, recuperar intervalos de tempo para determinadas consultas. Para apoiar uma avaliação abrangente em cenários do mundo real, também apresentamos o benchmark VUE-TR, que introduz cinco avanços principais. 1) Duração do vídeo: significativamente maior do que os conjuntos de dados de recuperação temporal existentes, 2) Suporte a áudio: inclui consultas baseadas em áudio, 3) Formato da consulta: diversos comprimentos/formatos de consulta, 4) Qualidade da anotação: os intervalos de tempo verdadeiros são anotados manualmente. 5) Métrica de avaliação: uma métrica IoU refinada para apoiar a avaliação em múltiplos intervalos de tempo. Notavelmente, o Vidi supera significativamente os principais modelos proprietários, como GPT-4o e Gemini, na tarefa de recuperação temporal, indicando sua superioridade em cenários de edição de vídeo.
A animação controlável de personagens continua sendo um problema desafiador, especialmente no tratamento de poses raras, personagens estilizados, interações entre personagens e objetos, iluminação complexa e cenas dinâmicas. Para enfrentar esses desafios, trabalhos anteriores concentraram-se principalmente em injetar orientações de pose e aparência por meio de redes elaboradas de bypass, mas frequentemente lutam para generalizar em cenários de mundo aberto. Neste artigo, propomos uma nova perspectiva que, desde que o modelo de base seja suficientemente poderoso, modificações diretas no modelo com estratégias flexíveis de ajuste fino podem resolver amplamente os desafios mencionados, dando um passo em direção à animação controlável de personagens em cenários reais. Especificamente, introduzimos o RealisDance-DiT, construído sobre o modelo de base de vídeo Wan-2.1. Nossa análise detalhada revela que o design amplamente adotado da Reference Net é subótimo para modelos DiT em grande escala. Em vez disso, demonstramos que modificações mínimas na arquitetura do modelo de base resultam em uma linha de base surpreendentemente forte. Além disso, propomos as estratégias de aquecimento de baixo ruído e "grandes lotes e pequenas iterações" para acelerar a convergência do modelo durante o ajuste fino, preservando ao máximo os conhecimentos prévios do modelo de base. Adicionalmente, introduzimos um novo conjunto de dados de teste que captura diversos desafios do mundo real, complementando benchmarks existentes, como o conjunto de dados do TikTok e o conjunto de dados de vídeos de moda da UBC, para avaliar de forma abrangente o método proposto. Experimentos extensivos mostram que o RealisDance-DiT supera os métodos existentes por uma grande margem.
Agentes LLM são uma forma emergente de sistemas de IA onde modelos de linguagem de grande escala (LLMs) atuam como o componente central, utilizando um conjunto diversificado de ferramentas para completar tarefas atribuídas pelo usuário. Apesar de seu grande potencial, os agentes LLM apresentam riscos significativos de segurança. Ao interagir com o mundo externo, eles podem encontrar comandos maliciosos de atacantes, levando à execução de ações perigosas. Uma maneira promissora de abordar isso é aplicando o princípio do menor privilégio: permitindo apenas ações essenciais para a conclusão da tarefa enquanto bloqueia as desnecessárias. No entanto, alcançar isso é desafiador, pois requer cobrir diversos cenários de agentes enquanto preserva tanto a segurança quanto a utilidade. Apresentamos o Progent, o primeiro mecanismo de controle de privilégios para agentes LLM. Em seu núcleo está uma linguagem específica de domínio para expressar de forma flexível políticas de controle de privilégios aplicadas durante a execução do agente. Essas políticas fornecem restrições refinadas sobre chamadas de ferramentas, decidindo quando as chamadas são permitidas e especificando alternativas caso não sejam. Isso permite que desenvolvedores e usuários de agentes criem políticas adequadas para seus casos de uso específicos e as apliquem de forma determinística para garantir a segurança. Graças ao seu design modular, a integração do Progent não altera os componentes internos do agente e requer apenas mudanças mínimas na implementação do agente, aumentando sua praticidade e potencial para adoção generalizada. Para automatizar a escrita de políticas, utilizamos LLMs para gerar políticas com base em consultas do usuário, que são então atualizadas dinamicamente para melhorar a segurança e a utilidade. Nossa avaliação extensiva mostra que ele permite uma segurança robusta enquanto preserva alta utilidade em três cenários ou benchmarks distintos: AgentDojo, ASB e AgentPoison. Além disso, realizamos uma análise detalhada, demonstrando a eficácia de seus componentes principais e a resiliência de sua geração automatizada de políticas contra ataques adaptativos.
Propomos o MR. Video, uma estrutura de compreensão de vídeos longos baseada em agentes que demonstra o princípio simples, porém eficaz, de MapReduce para processar vídeos longos: (1) Map: percepção independente e densa de clipes de vídeo curtos, e (2) Reduce: agregação conjunta de informações de todos os clipes. Em comparação com modelos visão-linguagem (VLMs) de sequência para sequência, o MR. Video realiza uma percepção detalhada de vídeos curtos sem ser limitado pelo comprimento do contexto. Em comparação com agentes de vídeo existentes que geralmente dependem da seleção sequencial de segmentos-chave, a operação Map permite uma percepção paralela de sequências de segmentos de vídeo curtos mais simples e escalável. A etapa Reduce permite uma agregação e raciocínio de contexto mais abrangentes, superando a recuperação explícita de segmentos-chave. Esse princípio de MapReduce é aplicável tanto a VLMs quanto a agentes de vídeo, e usamos agentes LLM para validar sua eficácia. Na prática, o MR. Video emprega dois estágios de MapReduce: (A) Legendagem: geração de legendas para clipes de vídeo curtos (map), seguida da padronização de personagens e objetos repetidos em nomes compartilhados (reduce); (B) Análise: para cada pergunta do usuário, análise de informações relevantes de vídeos curtos individuais (map) e integração delas em uma resposta final (reduce). O MR. Video alcança uma melhoria de mais de 10% na precisão no desafiador LVBench em comparação com VLMs e agentes de vídeo state-of-the-art. O código está disponível em: https://github.com/ziqipang/MR-Video
Reconhecer e raciocinar sobre objetos ocluídos (parcial ou totalmente ocultos) é fundamental para a compreensão de cenas visuais, já que oclusões ocorrem frequentemente em ambientes do mundo real e atuam como obstáculos para a compreensão espacial. Para testar a capacidade dos modelos de raciocinar sobre múltiplos objetos ocluídos, introduzimos uma nova tarefa, Contagem Amodal para Padrões Através de Regiões Não Vistas (CAPTURe), que exige que um modelo conte objetos organizados em um padrão, inferindo como o padrão continua por trás de um oclusor (um objeto que bloqueia partes da cena). O CAPTURe requer tanto o reconhecimento de padrões visuais quanto o raciocínio, tornando-o um teste útil para avaliar modelos de visão e linguagem (VLMs) quanto à sua compreensão de padrões ocluídos e habilidades de entendimento espacial. Ao exigir que os modelos raciocinem sobre objetos ocluídos, o CAPTURe também testa a capacidade dos VLMs de formar modelos do mundo que lhes permitam preencher informações ausentes. O CAPTURe consiste em duas partes: (1) CAPTURe-real, com imagens manualmente filtradas de objetos reais em padrões, e (2) CAPTURe-sintético, um diagnóstico controlado com imagens de padrões geradas. Avaliamos quatro VLMs robustos (GPT-4o, Intern-VL2, Molmo e Qwen2-VL) no CAPTURe, constatando que os modelos têm dificuldade em contar tanto em padrões ocluídos quanto não ocluídos. Crucialmente, observamos que os modelos têm desempenho pior com oclusão, sugerindo que os VLMs também são deficientes em inferir relações espaciais não vistas: até mesmo os VLMs mais fortes, como o GPT-4o, falham em contar com oclusão. Em contraste, constatamos que os humanos cometem muito pouco erro no CAPTURe. Também descobrimos que fornecer informações auxiliares sobre as localizações dos objetos ocluídos aumenta o desempenho, destacando que o erro do modelo vem tanto da incapacidade de lidar com oclusão quanto da dificuldade de contar em imagens.
A Propriedade Intelectual (PI) é um domínio único que integra conhecimentos técnicos e jurídicos, tornando-a intrinsecamente complexa e intensiva em conhecimento. À medida que os grandes modelos de linguagem (LLMs) continuam a avançar, eles demonstram grande potencial para processar tarefas de PI, permitindo uma análise, compreensão e geração de conteúdo relacionado à PI mais eficientes. No entanto, os conjuntos de dados e benchmarks existentes focam-se de forma restrita em patentes ou cobrem aspectos limitados do campo da PI, carecendo de alinhamento com cenários do mundo real. Para preencher essa lacuna, introduzimos a primeira taxonomia abrangente de tarefas de PI e um benchmark bilíngue grande e diversificado, o IPBench, que abrange 8 mecanismos de PI e 20 tarefas. Este benchmark foi projetado para avaliar LLMs em aplicações reais de propriedade intelectual, englobando tanto a compreensão quanto a geração. Avaliamos 16 LLMs, desde modelos de propósito geral até modelos específicos de domínio, e descobrimos que mesmo o modelo com melhor desempenho alcança apenas 75,8% de precisão, revelando um espaço substancial para melhoria. Notavelmente, modelos de código aberto voltados para PI e direito ficam atrás de modelos de propósito geral de código fechado. Disponibilizamos publicamente todos os dados e códigos do IPBench e continuaremos a atualizá-lo com tarefas adicionais relacionadas à PI para refletir melhor os desafios do mundo real no domínio da propriedade intelectual.
Este estudo apresenta um modelo novo e interpretável, o DiffVox, para a correspondência de efeitos vocais na produção musical. O DiffVox, abreviação de "Differentiable Vocal Fx", integra equalização paramétrica, controle de faixa dinâmica, delay e reverberação com implementações diferenciáveis eficientes, permitindo a otimização baseada em gradientes para a estimativa de parâmetros. Os presets vocais são recuperados de dois conjuntos de dados, compreendendo 70 faixas do MedleyDB e 365 faixas de uma coleção privada. A análise das correlações de parâmetros destaca relações fortes entre efeitos e parâmetros, como os filtros high-pass e low-shelf que frequentemente atuam em conjunto para moldar as frequências graves, e o tempo de delay que se correlaciona com a intensidade dos sinais atrasados. A análise de componentes principais revela conexões com as dimensões de timbre de McAdams, onde o componente mais crucial modula a percepção de espacialidade, enquanto os componentes secundários influenciam o brilho espectral. Testes estatísticos confirmam a natureza não Gaussiana da distribuição de parâmetros, destacando a complexidade do espaço de efeitos vocais. Esses achados iniciais sobre as distribuições de parâmetros estabelecem a base para pesquisas futuras em modelagem de efeitos vocais e mixagem automática. Nosso código-fonte e conjuntos de dados estão acessíveis em https://github.com/SonyResearch/diffvox.