Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços em modelos de linguagem de grande escala (LLMs) e sistemas multiagentes demonstraram capacidades notáveis em tarefas complexas de resolução de problemas, como pesquisa aprofundada, codificação intuitiva e raciocínio matemático. No entanto, a maioria dos sistemas multiagentes existentes é construída com base em engenharia manual de prompts/fluxos de trabalho com estruturas de agentes sofisticadas, tornando-os computacionalmente ineficientes, menos capazes e incapazes de se beneficiar de aprendizado centrado em dados. Neste trabalho, introduzimos o Chain-of-Agents (CoA), um novo paradigma de raciocínio em LLMs que permite a resolução complexa de problemas de forma nativa e end-to-end, da mesma maneira que um sistema multiagente (ou seja, resolução de problemas em múltiplas etapas com múltiplas ferramentas e múltiplos agentes) dentro de um único modelo. Na resolução de problemas com chain-of-agents, o modelo ativa dinamicamente diferentes agentes de ferramentas e agentes de interpretação de papéis para simular a colaboração multiagente de forma end-to-end. Para eliciar habilidades de resolução de problemas end-to-end com chain-of-agents em LLMs, introduzimos um framework de destilação multiagente para destilar sistemas multiagentes state-of-the-art em trajetórias de chain-of-agents para ajuste supervisionado agentivo. Em seguida, usamos aprendizado por reforço agentivo em tarefas agentivas verificáveis para aprimorar ainda mais as capacidades dos modelos na resolução de problemas com chain-of-agents. Chamamos os modelos resultantes de Modelos de Fundação Agentivos (AFMs). Nossos estudos empíricos demonstram que o AFM estabelece um novo estado da arte em desempenho em diversos benchmarks, tanto em configurações de agentes web quanto de código. Disponibilizamos toda a pesquisa, incluindo os pesos do modelo, código para treinamento e avaliação, e os dados de treinamento, totalmente em código aberto, oferecendo um ponto de partida sólido para pesquisas futuras em modelos agentivos e RL agentivo.
O LongSplat aborda desafios críticos na síntese de novas vistas (NVS) a partir de vídeos longos capturados casualmente, caracterizados por movimentos irregulares da câmera, poses desconhecidas da câmera e cenas expansivas. Os métodos atuais frequentemente sofrem com deriva de pose, inicialização imprecisa da geometria e severas limitações de memória. Para resolver esses problemas, introduzimos o LongSplat, um robusto framework de 3D Gaussian Splatting sem pose, que apresenta: (1) Otimização Conjunta Incremental, que otimiza simultaneamente as poses da câmera e os Gaussianos 3D para evitar mínimos locais e garantir consistência global; (2) um Módulo de Estimação de Pose robusto que aproveita priors 3D aprendidos; e (3) um mecanismo eficiente de Formação de Âncoras Octree, que converte nuvens de pontos densas em âncoras com base na densidade espacial. Experimentos extensivos em benchmarks desafiadores demonstram que o LongSplat alcança resultados de ponta, melhorando substancialmente a qualidade de renderização, a precisão da pose e a eficiência computacional em comparação com abordagens anteriores. Página do projeto: https://linjohnss.github.io/longsplat/
Modelos de Linguagem de Grande Escala (LLMs) exigem técnicas sofisticadas de prompt, mas as práticas atuais enfrentam desafios em estrutura, integração de dados, sensibilidade a formatos e ferramentas. Os métodos existentes carecem de soluções abrangentes para organizar prompts complexos que envolvem diversos tipos de dados (documentos, tabelas, imagens) ou para gerenciar variações de apresentação de forma sistemática. Para abordar essas lacunas, introduzimos o POML (Prompt Orchestration Markup Language). O POML emprega marcação baseada em componentes para estrutura lógica (papéis, tarefas, exemplos), tags especializadas para integração contínua de dados e um sistema de estilos semelhante ao CSS para desacoplar conteúdo da apresentação, reduzindo a sensibilidade a formatações. Ele inclui modelagem para prompts dinâmicos e um kit de ferramentas abrangente para desenvolvedores (suporte a IDE, SDKs) para melhorar o controle de versão e a colaboração. Validamos o POML por meio de dois estudos de caso que demonstram seu impacto na integração de aplicações complexas (PomLink) e no desempenho de precisão (TableQA), além de um estudo com usuários que avalia sua eficácia em cenários reais de desenvolvimento.
Designers visuais naturalmente buscam inspiração em múltiplas referências visuais, combinando diversos elementos e princípios estéticos para criar obras de arte. No entanto, os frameworks atuais de geração de imagens dependem predominantemente de entradas de fonte única — seja prompts de texto ou imagens de referência individuais. Neste artigo, focamos na tarefa de geração de imagens controlada utilizando múltiplas referências visuais. Introduzimos o MultiRef-bench, um rigoroso framework de avaliação composto por 990 amostras sintéticas e 1.000 amostras do mundo real que exigem a incorporação de conteúdo visual de múltiplas imagens de referência. As amostras sintéticas são geradas sinteticamente por meio de nosso mecanismo de dados RefBlend, com 10 tipos de referência e 33 combinações de referência. Com base no RefBlend, construímos ainda um conjunto de dados MultiRef contendo 38 mil imagens de alta qualidade para facilitar pesquisas futuras. Nossos experimentos em três modelos intercalados de imagem-texto (ou seja, OmniGen, ACE e Show-o) e seis frameworks agentivos (por exemplo, ChatDiT e LLM + SD) revelam que mesmo os sistemas mais avançados enfrentam dificuldades com o condicionamento de múltiplas referências, com o melhor modelo, OmniGen, alcançando apenas 66,6% nas amostras sintéticas e 79,0% nos casos do mundo real, em média, em comparação com a resposta ideal. Essas descobertas fornecem direções valiosas para o desenvolvimento de ferramentas criativas mais flexíveis e semelhantes às humanas, capazes de integrar efetivamente múltiplas fontes de inspiração visual. O conjunto de dados está publicamente disponível em: https://multiref.github.io/.
A generalização em IA corporificada é dificultada pela "lacuna entre ver e fazer", que decorre da escassez de dados e da heterogeneidade de corporificação. Para abordar isso, pioneiramos o "apontar" como uma representação intermediária unificada e independente de corporificação, definindo quatro habilidades centrais de apontar corporificado que conectam a compreensão de alto nível em visão e linguagem com primitivas de ação de baixo nível. Introduzimos o Embodied-R1, um Modelo de Visão e Linguagem (VLM) de 3B projetado especificamente para raciocínio e apontar corporificado. Utilizamos uma ampla gama de conjuntos de dados de raciocínio visual geral e corporificado como fontes para construir um conjunto de dados em larga escala, o Embodied-Points-200K, que suporta capacidades essenciais de apontar corporificado. Em seguida, treinamos o Embodied-R1 usando um currículo de Ajuste Fino Reforçado (RFT) em duas etapas com um design de recompensa multitarefa especializado. O Embodied-R1 alcança desempenho de ponta em 11 benchmarks de apontar e espacialidade corporificada. Criticamente, ele demonstra uma generalização robusta zero-shot ao alcançar uma taxa de sucesso de 56,2% no SIMPLEREnv e 87,5% em 8 tarefas reais com o XArm, sem qualquer ajuste fino específico para a tarefa, representando uma melhoria de 62% em relação a baselines fortes. Além disso, o modelo exibe alta robustez contra diversas perturbações visuais. Nosso trabalho mostra que uma representação centrada no apontar, combinada com um paradigma de treinamento RFT, oferece um caminho eficaz e generalizável para fechar a lacuna entre percepção e ação na robótica.
Agentes de IA com capacidades avançadas de raciocínio e uso de ferramentas têm demonstrado desempenho impressionante na navegação na web para buscas profundas. Embora benchmarks existentes, como o BrowseComp, avaliem essas habilidades de navegação, eles se concentram principalmente em informações textuais, negligenciando a prevalência de conteúdo multimodal. Para preencher essa lacuna, introduzimos o MM-BrowseComp, um novo benchmark composto por 224 questões desafiadoras e cuidadosamente elaboradas, projetadas especificamente para avaliar as capacidades de recuperação e raciocínio multimodal dos agentes. Essas questões frequentemente incorporam imagens nos prompts, e informações cruciais encontradas durante o processo de busca e raciocínio também podem estar embutidas em imagens ou vídeos nas páginas da web. Consequentemente, métodos que dependem exclusivamente de texto se mostram insuficientes para nosso benchmark. Além disso, fornecemos uma lista de verificação verificada para cada questão, permitindo uma análise detalhada das dependências multimodais e dos caminhos de raciocínio. Nossa avaliação abrangente dos modelos state-of-the-art no MM-BrowseComp revela que até mesmo modelos de ponta, como o OpenAI o3 com ferramentas, alcançam apenas 29,02% de precisão, destacando as capacidades multimodais subótimas e a falta de raciocínio multimodal nativo nos modelos atuais.
O Virtual Try-On (VTON) é uma tarefa prática e amplamente aplicada, para a qual a maioria dos trabalhos existentes se concentra em roupas. Este artigo apresenta o OmniTry, uma estrutura unificada que estende o VTON além de vestuário para abranger qualquer objeto vestível, como joias e acessórios, com uma configuração sem máscara para uma aplicação mais prática. Ao estender para vários tipos de objetos, a curadoria de dados é desafiadora para obter imagens emparelhadas, ou seja, a imagem do objeto e o resultado correspondente de experimentação. Para resolver esse problema, propomos um pipeline em duas etapas: Na primeira etapa, aproveitamos imagens não emparelhadas em grande escala, ou seja, retratos com qualquer item vestível, para treinar o modelo para localização sem máscara. Especificamente, reutilizamos o modelo de inpainting para desenhar automaticamente objetos em posições adequadas, dada uma máscara vazia. Na segunda etapa, o modelo é ajustado com imagens emparelhadas para transferir a consistência da aparência do objeto. Observamos que o modelo após a primeira etapa mostra convergência rápida mesmo com poucas amostras emparelhadas. O OmniTry é avaliado em um benchmark abrangente composto por 12 classes comuns de objetos vestíveis, com imagens tanto de loja quanto em ambiente natural. Os resultados experimentais sugerem que o OmniTry apresenta melhor desempenho tanto na localização de objetos quanto na preservação de ID em comparação com os métodos existentes. O código, os pesos do modelo e o benchmark de avaliação do OmniTry serão disponibilizados publicamente em https://omnitry.github.io/.
A edição de cores guiada por texto em imagens e vídeos é um problema fundamental ainda não resolvido, exigindo manipulação refinada de atributos de cor, incluindo albedo, cor da fonte de luz e iluminação ambiente, enquanto preserva a consistência física na geometria, propriedades dos materiais e interações luz-matéria. Métodos existentes que não requerem treinamento oferecem ampla aplicabilidade em tarefas de edição, mas lutam com o controle preciso de cores e frequentemente introduzem inconsistências visuais tanto nas regiões editadas quanto nas não editadas. Neste trabalho, apresentamos o ColorCtrl, um método de edição de cores que não requer treinamento e aproveita os mecanismos de atenção dos modernos Transformers de Difusão Multi-Modal (MM-DiT). Ao separar estrutura e cor por meio da manipulação direcionada de mapas de atenção e tokens de valor, nosso método permite edição de cores precisa e consistente, juntamente com controle em nível de palavra da intensidade dos atributos. Nosso método modifica apenas as regiões especificadas pelo prompt, deixando áreas não relacionadas intocadas. Experimentos extensivos tanto no SD3 quanto no FLUX.1-dev demonstram que o ColorCtrl supera as abordagens existentes que não requerem treinamento e alcança desempenhos de ponta tanto em qualidade de edição quanto em consistência. Além disso, nosso método supera modelos comerciais robustos como o FLUX.1 Kontext Max e a Geração de Imagens GPT-4o em termos de consistência. Quando estendido a modelos de vídeo como o CogVideoX, nossa abordagem exibe vantagens ainda maiores, particularmente na manutenção da coerência temporal e estabilidade de edição. Por fim, nosso método também se generaliza para modelos de difusão de edição baseados em instruções, como o Step1X-Edit e o FLUX.1 Kontext dev, demonstrando ainda mais sua versatilidade.
A avaliação de recomendações personalizadas continua sendo um desafio central, especialmente em domínios de áudio de longa duração, como podcasts, onde as métricas tradicionais offline sofrem com viés de exposição e métodos online, como testes A/B, são custosos e operacionalmente limitados. Neste artigo, propomos uma nova estrutura que aproveita Modelos de Linguagem de Grande Escala (LLMs) como juízes offline para avaliar a qualidade das recomendações de podcasts de maneira escalável e interpretável. Nossa abordagem em duas etapas, consciente do perfil, primeiro constrói perfis de usuários em linguagem natural, extraídos de 90 dias de histórico de escuta. Esses perfis resumem tanto interesses temáticos quanto padrões comportamentais, servindo como representações compactas e interpretáveis das preferências do usuário. Em vez de fornecer dados brutos ao LLM, utilizamos esses perfis para fornecer contexto de alto nível e semanticamente rico, permitindo que o LLM raciocine de forma mais eficaz sobre o alinhamento entre os interesses do usuário e os episódios recomendados. Isso reduz a complexidade da entrada e melhora a interpretabilidade. O LLM é então solicitado a fornecer julgamentos pontuais e pareados detalhados com base na correspondência entre perfil e episódio. Em um estudo controlado com 47 participantes, nosso juiz consciente do perfil correspondeu aos julgamentos humanos com alta fidelidade e superou ou igualou uma variante que utilizava históricos de escuta brutos. A estrutura possibilita uma avaliação eficiente e consciente do perfil para testes iterativos e seleção de modelos em sistemas de recomendação.
Este estudo investiga o uso de Modelos de Linguagem de Grande Escala (LLMs) para prever escores de miséria percebida por humanos a partir de descrições em linguagem natural de cenários do mundo real. A tarefa é formulada como um problema de regressão, em que o modelo atribui um valor escalar de 0 a 100 a cada declaração de entrada. Avaliamos múltiplas estratégias de prompt, incluindo zero-shot, few-shot com contexto fixo e prompts baseados em recuperação usando embeddings de sentenças BERT. Abordagens few-shot superam consistentemente as baselines zero-shot, destacando o valor de exemplos contextuais na predição afetiva. Para ir além da avaliação estática, introduzimos o "Game Show da Miséria", uma estrutura gamificada inspirada em um formato televisivo. Ele testa os LLMs por meio de rodadas estruturadas envolvendo comparação ordinal, classificação binária, estimativa escalar e raciocínio orientado por feedback. Essa configuração nos permite avaliar não apenas a precisão preditiva, mas também a capacidade do modelo de se adaptar com base em feedback corretivo. A avaliação gamificada destaca o potencial mais amplo dos LLMs em tarefas dinâmicas de raciocínio emocional além da regressão padrão. Link para código e dados: https://github.com/abhi1nandy2/Misery_Data_Exps_GitHub
Embora os modelos de linguagem de grande escala (LLMs) tenham demonstrado desempenho notável em diversas tarefas, eles fundamentalmente carecem de autoconsciência e frequentemente exibem excesso de confiança, atribuindo pontuações de confiança elevadas a previsões incorretas. A estimativa precisa de confiança é, portanto, crucial para aumentar a confiabilidade e a robustez das saídas geradas por LLMs. No entanto, as abordagens existentes sofrem com mecanismos de pontuação de granularidade grossa que falham em fornecer estimativas de confiança contínuas e de granularidade fina ao longo do processo de geração. Para superar essas limitações, introduzimos o FineCE, um novo método de estimativa de confiança que fornece pontuações de confiança precisas e de granularidade fina durante a geração de texto. Especificamente, primeiro desenvolvemos um pipeline abrangente para a construção de dados de treinamento que capturam efetivamente a distribuição probabilística subjacente das respostas dos LLMs, e então treinamos um modelo para prever pontuações de confiança para sequências de texto arbitrárias de maneira supervisionada. Além disso, propomos uma estratégia de Integração de Confiança Reversa (BCI) que aproveita informações do texto subsequente para melhorar a estimativa de confiança da sequência atual durante a inferência. Também introduzimos três estratégias para identificar posições ótimas para realizar a estimativa de confiança dentro do processo de geração. Experimentos extensivos em múltiplos conjuntos de dados de referência demonstram que o FineCE supera consistentemente os métodos clássicos de estimativa de confiança existentes. Nosso código e todas as baselines utilizadas no artigo estão disponíveis no GitHub.
O campo da separação de fala, que aborda o "problema do coquetel", tem testemunhado avanços revolucionários com o uso de Redes Neurais Profundas (DNNs). A separação de fala melhora a clareza em ambientes acústicos complexos e serve como um pré-processamento crucial para o reconhecimento de fala e o reconhecimento de locutores. No entanto, a literatura atual foca de maneira restrita em arquiteturas específicas ou abordagens isoladas, criando uma compreensão fragmentada. Esta pesquisa aborda essa lacuna ao fornecer um exame sistemático das técnicas de separação de fala baseadas em DNNs. Nosso trabalho se diferencia por: (I) Perspectiva abrangente: Investigamos sistematicamente paradigmas de aprendizagem, cenários de separação com locutores conhecidos/desconhecidos, análise comparativa de frameworks supervisionados/autossupervisionados/não supervisionados e componentes arquitetônicos, desde codificadores até estratégias de estimação. (II) Atualidade: A cobertura dos desenvolvimentos de ponta garante acesso às inovações e benchmarks mais recentes. (III) Insights únicos: Além da sumarização, avaliamos trajetórias tecnológicas, identificamos padrões emergentes e destacamos direções promissoras, incluindo frameworks robustos a domínios, arquiteturas eficientes, integração multimodal e novos paradigmas autossupervisionados. (IV) Avaliação justa: Fornecemos avaliações quantitativas em conjuntos de dados padrão, revelando as verdadeiras capacidades e limitações de diferentes métodos. Esta pesquisa abrangente serve como uma referência acessível para pesquisadores experientes e recém-chegados que navegam pelo cenário complexo da separação de fala.
Avanços recentes em auto-refinamento demonstraram um potencial significativo para melhorar as saídas de modelos de linguagem de grande escala (LLMs) por meio de refinamento iterativo. No entanto, a maioria dos métodos existentes de auto-refinamento depende de um processo reativo com um número fixo de iterações, tornando difícil determinar o momento ideal e o conteúdo do refinamento com base no contexto de geração em evolução. Inspirados pela maneira como os seres humanos refinam dinamicamente seus pensamentos durante a execução, propomos o Auto-Refinamento Proativo (PASR), um método inovador que permite que os LLMs refinem suas saídas durante o processo de geração. Diferente de métodos que regeneram respostas inteiras, o PASR decide proativamente se, quando e como refinar com base no estado interno do modelo e no contexto em evolução. Realizamos experimentos extensivos em um conjunto diversificado de 10 tarefas para avaliar a eficácia do PASR. Os resultados experimentais mostram que o PASR melhora significativamente o desempenho na resolução de problemas. Em particular, no Qwen3-8B, o PASR reduz o consumo médio de tokens em 41,6% em comparação com a geração padrão, ao mesmo tempo em que alcança uma melhoria de 8,2% na precisão. Nosso código e todas as linhas de base utilizadas no artigo estão disponíveis no GitHub.
Modelos recentes de correspondência de fluxo (flow matching) para geração de texto para imagem alcançaram qualidade notável, mas sua integração com aprendizado por reforço para alinhamento de preferências humanas permanece subótima, dificultando a otimização baseada em recompensas de granularidade fina. Observamos que o principal obstáculo ao treinamento eficaz de GRPO (Optimização de Política Baseada em Recompensas Graduais) em modelos de fluxo é a suposição de uniformidade temporal nas abordagens existentes: recompensas terminais esparsas com atribuição de crédito uniforme falham em capturar a criticidade variável das decisões ao longo das etapas de geração, resultando em exploração ineficiente e convergência subótima. Para remediar essa deficiência, introduzimos o TempFlow-GRPO (Temporal Flow GRPO), uma estrutura GRPO fundamentada que captura e explora a estrutura temporal inerente à geração baseada em fluxo. O TempFlow-GRPO apresenta duas inovações principais: (i) um mecanismo de ramificação de trajetórias que fornece recompensas de processo ao concentrar a estocasticidade em pontos de ramificação designados, permitindo atribuição de crédito precisa sem a necessidade de modelos especializados de recompensas intermediárias; e (ii) um esquema de ponderação consciente do ruído que modula a otimização da política de acordo com o potencial intrínseco de exploração de cada etapa temporal, priorizando o aprendizado durante os estágios iniciais de alto impacto enquanto garante refinamento estável nas fases posteriores. Essas inovações conferem ao modelo uma otimização temporalmente consciente que respeita a dinâmica gerativa subjacente, resultando em desempenho de ponta no alinhamento de preferências humanas e em benchmarks padrão de texto para imagem.
A compreensão auditiva - incluindo fala, sons não verbais e música - é essencial para alcançar inteligência em nível humano. Consequentemente, agentes de IA devem demonstrar compreensão auditiva holística para se qualificarem como geralmente inteligentes. No entanto, avaliar a inteligência auditiva de forma abrangente continua sendo um desafio. Para abordar essa lacuna, apresentamos o MMAU-Pro, o benchmark mais abrangente e rigorosamente curado para avaliar a inteligência auditiva em sistemas de IA. O MMAU-Pro contém 5.305 instâncias, onde cada instância possui um ou mais áudios associados a pares de perguntas e respostas gerados por especialistas humanos, abrangendo fala, som, música e suas combinações. Diferente dos benchmarks existentes, o MMAU-Pro avalia a inteligência auditiva em 49 habilidades únicas e múltiplas dimensões complexas, incluindo compreensão de áudio de longa duração, raciocínio espacial em áudio, compreensão de múltiplos áudios, entre outros. Todas as perguntas são meticulosamente projetadas para exigir raciocínio deliberado de múltiplos passos, incluindo formatos de resposta de múltipla escolha e abertos. Importante destacar que os dados de áudio são obtidos diretamente "da natureza", em vez de provenientes de conjuntos de dados existentes com distribuições conhecidas. Avaliamos 22 modelos líderes de IA multimodal, tanto de código aberto quanto proprietários, revelando limitações significativas: mesmo modelos de última geração, como o Gemini 2.5 Flash e o Audio Flamingo 3, atingem apenas 59,2% e 51,7% de precisão, respectivamente, aproximando-se do desempenho aleatório em múltiplas categorias. Nossa análise extensa destaca deficiências específicas e fornece novos insights, oferecendo perspectivas acionáveis para a comunidade aprimorar o progresso futuro dos sistemas de IA em direção à inteligência geral auditiva. O benchmark e o código estão disponíveis em https://sonalkum.github.io/mmau-pro.
O aprendizado por reforço multiagente (MARL) é um paradigma poderoso para resolver problemas de tomada de decisão cooperativos e competitivos. Embora muitos benchmarks de MARL tenham sido propostos, poucos combinam espaços contínuos de estados e ações com tarefas desafiadoras de coordenação e planejamento. Apresentamos o CAMAR, um novo benchmark de MARL projetado explicitamente para busca de caminhos multiagente em ambientes com ações contínuas. O CAMAR suporta interações cooperativas e competitivas entre agentes e é executado de forma eficiente, atingindo até 100.000 passos de ambiente por segundo. Também propomos um protocolo de avaliação de três níveis para acompanhar melhor o progresso algorítmico e permitir uma análise mais profunda do desempenho. Além disso, o CAMAR permite a integração de métodos clássicos de planejamento, como RRT e RRT*, em pipelines de MARL. Utilizamos esses métodos como baselines independentes e combinamos o RRT* com algoritmos populares de MARL para criar abordagens híbridas. Fornecemos um conjunto de cenários de teste e ferramentas de benchmarking para garantir reprodutibilidade e comparação justa. Experimentos mostram que o CAMAR representa um ambiente de teste desafiador e realista para a comunidade de MARL.
Modelos de linguagem de grande escala (LLMs) exibem habilidades notáveis de resolução de problemas, mas enfrentam dificuldades com tarefas complexas devido ao conhecimento interno estático. A Geração Aumentada por Recuperação (RAG) melhora o acesso a informações externas, mas ainda é limitada em raciocínio multi-hop e busca estratégica devido a fluxos de trabalho rígidos. Avanços recentes em pesquisa profunda agentiva capacitam os LLMs a raciocinar, buscar e sintetizar informações de forma autônoma. No entanto, abordagens atuais que dependem de aprendizado por reforço (RL) baseado em resultados enfrentam problemas críticos, como gradientes conflitantes e esparsidade de recompensas, limitando ganhos de desempenho e eficiência de treinamento. Para abordar esses problemas, primeiro propomos o Pensamento Atômico, um novo paradigma de pensamento para LLMs que decompõe o raciocínio em unidades funcionais de granularidade fina. Essas unidades são supervisionadas por Modelos de Recompensa de Raciocínio (RRMs), que fornecem Recompensas de Pensamento Atômico (ATR) para orientação de granularidade fina. Com base nisso, propomos o Atom-Searcher, uma nova estrutura de RL para pesquisa profunda agentiva que integra Pensamento Atômico e ATR. O Atom-Searcher usa um cronograma de recompensas inspirado em currículo, priorizando ATR em nível de processo no início e transicionando para recompensas de resultado, acelerando a convergência em caminhos de raciocínio eficazes. Experimentos em sete benchmarks mostram melhorias consistentes em relação ao estado da arte. As principais vantagens incluem: (1) O Atom-Searcher escala a computação em tempo de teste. (2) O Pensamento Atômico fornece âncoras de supervisão para RRMs, conectando tarefas de pesquisa profunda e RRMs. (3) O Atom-Searcher exibe padrões de raciocínio mais interpretáveis e semelhantes aos humanos.
A proteção de direitos autorais para grandes modelos de linguagem é de extrema importância, considerando seus custos substanciais de desenvolvimento, valor proprietário e potencial para uso indevido. Pesquisas existentes têm se concentrado predominantemente em técnicas para rastrear conteúdo gerado por LLMs — especificamente, marcação d'água em texto — enquanto uma exploração sistemática de métodos para proteger os próprios modelos (ou seja, marcação d'água em modelos e impressão digital de modelos) ainda está ausente. Além disso, as relações e distinções entre marcação d'água em texto, marcação d'água em modelos e impressão digital de modelos não foram clarificadas de forma abrangente. Este trabalho apresenta uma revisão detalhada do estado atual das tecnologias de proteção de direitos autorais para LLMs, com foco em impressão digital de modelos, abordando os seguintes aspectos: (1) esclarecendo a conexão conceitual da marcação d'água em texto para marcação d'água em modelos e impressão digital, adotando uma terminologia unificada que incorpora a marcação d'água em modelos no âmbito mais amplo da impressão digital; (2) fornecendo uma visão geral e comparação de diversas técnicas de marcação d'água em texto, destacando casos em que tais métodos podem funcionar como impressão digital de modelos; (3) categorizando e comparando sistematicamente as abordagens existentes de impressão digital de modelos para proteção de direitos autorais de LLMs; (4) apresentando, pela primeira vez, técnicas para transferência e remoção de impressão digital; (5) resumindo métricas de avaliação para impressões digitais de modelos, incluindo eficácia, inocuidade, robustez, discrição e confiabilidade; e (6) discutindo desafios em aberto e direções futuras de pesquisa. Esta revisão visa oferecer aos pesquisadores uma compreensão aprofundada tanto das tecnologias de marcação d'água em texto quanto de impressão digital de modelos na era dos LLMs, promovendo assim avanços adicionais na proteção de sua propriedade intelectual.
Este relatório técnico detalha uma abordagem inovadora para combinar raciocínio e geração aumentada por recuperação (RAG) em uma única arquitetura de modelo de linguagem enxuta. Enquanto os sistemas RAG existentes geralmente dependem de modelos em larga escala e APIs externas, nosso trabalho atende à crescente demanda por soluções de alto desempenho e que preservam a privacidade, implantáveis em ambientes com recursos limitados ou seguros. Com base em desenvolvimentos recentes em escalonamento em tempo de teste e modelos de raciocínio em pequena escala, desenvolvemos um agente conversacional aumentado por recuperação capaz de interpretar consultas complexas e específicas de domínio usando um modelo backbone leve. Nosso sistema integra um recuperador denso com modelos Qwen2.5-Instruct ajustados finamente, utilizando geração sintética de consultas e traços de raciocínio derivados de modelos de fronteira (por exemplo, DeepSeek-R1) sobre um corpus curado, neste caso, as páginas de condições A a Z do NHS. Exploramos o impacto da compressão de documentos baseada em sumarização, do design de dados sintéticos e do ajuste fino consciente do raciocínio no desempenho do modelo. A avaliação em comparação com modelos enxutos de propósito geral e sem raciocínio demonstra que nossa abordagem de ajuste fino específica para o domínio resulta em ganhos substanciais na precisão e consistência das respostas, aproximando-se do desempenho de modelos de fronteira, enquanto permanece viável para implantação local. Todos os detalhes de implementação e código são disponibilizados publicamente para apoiar a reprodutibilidade e adaptação em diversos domínios.
Os sistemas de recomendação de vídeo existentes dependem principalmente de metadados definidos pelo usuário ou de sinais visuais e acústicos de baixo nível extraídos por codificadores especializados. Esses recursos de baixo nível descrevem o que aparece na tela, mas perdem semânticas mais profundas, como intenção, humor e conhecimento do mundo, que fazem os clipes ressoarem com os espectadores. Por exemplo, um clipe de 30 segundos é simplesmente um cantor em um telhado ou uma paródia irônica filmada entre as chaminés de fadas da Capadócia, na Turquia? Tais distinções são críticas para recomendações personalizadas, mas permanecem invisíveis para os pipelines de codificação tradicionais. Neste artigo, introduzimos uma estrutura simples e agnóstica ao sistema de recomendação, sem necessidade de ajuste fino, que injeta semânticas de alto nível no pipeline de recomendação ao solicitar que um Modelo de Linguagem Multimodal (MLLM) pronto para uso resuma cada clipe em uma descrição rica em linguagem natural (por exemplo, "uma paródia de super-herói com lutas cômicas e stabs orquestrais"), preenchendo a lacuna entre o conteúdo bruto e a intenção do usuário. Utilizamos a saída do MLLM com um codificador de texto de última geração e a alimentamos em sistemas de recomendação colaborativos, baseados em conteúdo e generativos padrão. No conjunto de dados MicroLens-100K, que simula interações do usuário com vídeos no estilo TikTok, nossa estrutura supera consistentemente os recursos convencionais de vídeo, áudio e metadados em cinco modelos representativos. Nossos resultados destacam o potencial de aproveitar MLLMs como extratores de conhecimento em tempo real para construir sistemas de recomendação de vídeo mais conscientes da intenção do usuário.
Modelos generativos impulsionados por Large Language Models (LLMs) estão surgindo como uma solução unificada para alimentar tanto tarefas de recomendação quanto de busca. Uma escolha de design crucial nesses modelos é como representar os itens, tradicionalmente por meio de identificadores únicos (IDs) e, mais recentemente, com Semantic IDs compostos por códigos discretos, obtidos a partir de embeddings. Embora modelos de embeddings específicos para tarefas possam melhorar o desempenho em tarefas individuais, eles podem não generalizar bem em um cenário conjunto. Neste artigo, exploramos como construir Semantic IDs que funcionem bem tanto em busca quanto em recomendação ao usar um modelo unificado. Comparamos uma variedade de estratégias para construir Semantic IDs, analisando abordagens específicas para tarefas e entre tarefas, e também se cada tarefa deve ter seus próprios tokens de Semantic ID em um modelo generativo unificado de busca e recomendação. Nossos resultados mostram que o uso de um modelo bi-encoder ajustado para ambas as tarefas de busca e recomendação para obter embeddings de itens, seguido pela construção de um espaço unificado de Semantic ID, oferece um equilíbrio eficaz, permitindo um desempenho forte em ambas as tarefas. Esperamos que essas descobertas inspirem trabalhos futuros sobre esquemas de IDs semanticamente fundamentados e generalizáveis, e informem a próxima onda de arquiteturas generativas unificadas de recomendação.
Como os grandes modelos de linguagem compreendem as dimensões morais em comparação com os humanos? Esta primeira avaliação bayesiana em larga escala dos principais modelos de linguagem do mercado fornece a resposta. Em contraste com trabalhos anteriores que utilizavam verdades fundamentais determinísticas (regras de maioria ou inclusão), nós modelamos as discordâncias dos anotadores para capturar tanto a incerteza aleatória (discordância humana inerente) quanto a incerteza epistêmica (sensibilidade do modelo ao domínio). Avaliamos os principais modelos de linguagem (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) em mais de 250 mil anotações de aproximadamente 700 anotadores, abrangendo mais de 100 mil textos de mídias sociais, notícias e fóruns. Nosso framework bayesiano otimizado para GPU processou mais de 1 milhão de consultas de modelos, revelando que os modelos de IA geralmente se classificam entre os 25% melhores dos anotadores humanos, alcançando uma precisão balanceada muito superior à média. Importante destacar, descobrimos que a IA produz muito menos falsos negativos do que os humanos, evidenciando suas capacidades de detecção moral mais sensíveis.
Este trabalho estuda o desafio de transferir animações entre personagens cujas topologias esqueléticas diferem substancialmente. Embora muitas técnicas tenham avançado as abordagens de retargeting ao longo das décadas, a transferência de movimentos entre topologias diversas permanece pouco explorada. O principal obstáculo reside na inconsistência topológica inerente entre os esqueletos de origem e destino, o que restringe o estabelecimento de correspondências ósseas diretas de um para um. Além disso, a atual falta de conjuntos de dados de movimento em grande escala que abranjam diferentes estruturas topológicas limita severamente o desenvolvimento de abordagens baseadas em dados. Para superar essas limitações, introduzimos o Motion2Motion, uma nova estrutura livre de treinamento. De forma simples, porém eficaz, o Motion2Motion funciona com apenas um ou alguns exemplos de movimentos no esqueleto de destino, acessando um conjunto esparso de correspondências ósseas entre os esqueletos de origem e destino. Por meio de avaliações qualitativas e quantitativas abrangentes, demonstramos que o Motion2Motion alcança desempenho eficiente e confiável tanto em cenários de transferência entre esqueletos semelhantes quanto entre esqueletos de espécies diferentes. A utilidade prática de nossa abordagem é ainda evidenciada por sua integração bem-sucedida em aplicações subsequentes e interfaces de usuário, destacando seu potencial para aplicações industriais. Código e dados estão disponíveis em https://lhchen.top/Motion2Motion.
Autoencoders Esparsos (SAEs) podem extrair características interpretáveis de grandes modelos de linguagem (LLMs) sem supervisão. No entanto, sua eficácia em tarefas de direcionamento subsequentes é limitada pela necessidade de conjuntos de dados contrastivos ou armazenamento extensivo de ativações. Para abordar essas limitações, propomos o CorrSteer, que seleciona características correlacionando a correção das amostras com as ativações dos SAEs a partir de tokens gerados no tempo de inferência. Essa abordagem utiliza apenas ativações no tempo de inferência para extrair características mais relevantes, evitando assim correlações espúrias. Ela também obtém coeficientes de direcionamento a partir de ativações médias, automatizando todo o pipeline. Nosso método demonstra melhoria no desempenho de tarefas em QA, mitigação de viés, prevenção de jailbreaking e benchmarks de raciocínio no Gemma 2 2B e LLaMA 3.1 8B, alcançando notavelmente uma melhoria de +4,1% no desempenho do MMLU e +22,9% no HarmBench com apenas 4000 amostras. As características selecionadas demonstram padrões semanticamente significativos alinhados com os requisitos de cada tarefa, revelando as capacidades subjacentes que impulsionam o desempenho. Nosso trabalho estabelece a seleção baseada em correlação como uma abordagem eficaz e escalável para o direcionamento automatizado de SAEs em aplicações de modelos de linguagem.
Modelos universais de segmentação de imagens médicas surgiram como um paradigma promissor devido à sua forte capacidade de generalização em diversas tarefas, mostrando grande potencial para uma ampla gama de aplicações clínicas. Esse potencial tem sido impulsionado, em parte, pelo sucesso de modelos de visão de propósito geral, como o Segment Anything Model (SAM), que inspirou o desenvolvimento de várias variantes ajustadas para tarefas de segmentação médica. No entanto, variantes ajustadas como o MedSAM são treinadas com dados de imagens médicas comparativamente limitados, que frequentemente sofrem com heterogeneidade, anotações escassas e desvios distribucionais. Esses desafios limitam sua capacidade de generalização em uma ampla variedade de tarefas de segmentação médica. Nesse contexto, propomos o MedSAMix, um método de fusão de modelos sem necessidade de treinamento que integra os pontos fortes de modelos generalistas (por exemplo, SAM) e especialistas (por exemplo, MedSAM) para segmentação de imagens médicas. Em contraste com abordagens tradicionais de fusão de modelos que dependem de configuração manual e frequentemente resultam em desempenho subótimo, propomos um método de otimização de ordem zero para descobrir automaticamente soluções ótimas de fusão camada por camada. Além disso, para aplicações clínicas, desenvolvemos dois regimes para atender à demanda de especificidade de domínio e generalização em diferentes cenários, por meio de otimização de tarefa única e otimização multiobjetivo, respectivamente. Avaliações extensas em 25 tarefas de segmentação médica demonstram que o MedSAMix mitiga efetivamente o viés do modelo e melhora consistentemente o desempenho tanto na precisão específica do domínio quanto na generalização, alcançando melhorias de 6,67% em tarefas especializadas e 4,37% em avaliações multitarefa.
O desenvolvimento de campos de radiação (RF, do inglês Radiance Fields), como o 3D Gaussian Splatting (3DGS) e os Neural Radiance Fields (NeRF), revolucionou a síntese de visões fotorealísticas interativas e apresenta enormes oportunidades para pesquisa e aplicações em XR (Realidade Estendida). No entanto, apesar do crescimento exponencial da pesquisa em RF, as contribuições relacionadas a RF para a comunidade de XR permanecem escassas. Para compreender melhor essa lacuna de pesquisa, realizamos uma revisão sistemática da literatura atual sobre RF para analisar (i) como o RF é concebido para aplicações em XR, (ii) como ele já foi implementado e (iii) as lacunas de pesquisa remanescentes. Coletamos 365 contribuições relacionadas a RF e XR das comunidades de visão computacional, computação gráfica, robótica, multimídia, interação humano-computador e XR, buscando responder às questões de pesquisa mencionadas. Entre os 365 artigos, realizamos uma análise detalhada de 66 trabalhos que já abordavam aspectos específicos da pesquisa em RF para XR. Com esta revisão, expandimos e posicionamos tópicos de pesquisa em RF específicos para XR no campo mais amplo da pesquisa em RF, fornecendo um recurso útil para a comunidade de XR navegar no rápido desenvolvimento da pesquisa em RF.
Abordamos o desafio de detectar fala sintetizada sob mudanças de distribuição -- decorrentes de métodos de síntese, falantes, idiomas ou condições de áudio não vistos -- em relação aos dados de treinamento. Métodos de aprendizado com poucos exemplos são uma abordagem promissora para lidar com mudanças de distribuição, adaptando-se rapidamente com base em algumas amostras da distribuição original. Propomos uma rede prototípica com auto-atenção para permitir uma adaptação mais robusta com poucos exemplos. Para avaliar nossa abordagem, comparamos sistematicamente o desempenho de detectores tradicionais sem exemplos e os detectores propostos com poucos exemplos, controlando cuidadosamente as condições de treinamento para introduzir mudanças de distribuição no momento da avaliação. Em condições onde as mudanças de distribuição prejudicam o desempenho sem exemplos, nossa técnica de adaptação com poucos exemplos pode se adaptar rapidamente usando apenas 10 amostras da distribuição original -- alcançando uma redução relativa de até 32% na EER em deepfakes no idioma japonês e uma redução relativa de 20% no conjunto de dados ASVspoof 2021 Deepfake.
Séries temporais de sensores de movimento são fundamentais para o reconhecimento de atividades humanas (HAR), com aplicações em saúde, esportes e dispositivos inteligentes. No entanto, os métodos existentes são treinados para conjuntos fixos de atividades e exigem um retreinamento custoso quando novos comportamentos ou configurações de sensores surgem. Tentativas recentes de usar modelos de linguagem de grande escala (LLMs) para HAR, geralmente convertendo sinais em texto ou imagens, sofrem com precisão limitada e falta de interpretabilidade verificável. Propomos ZARA, o primeiro framework baseado em agentes para HAR zero-shot e explicável diretamente a partir de séries temporais brutas de movimento. O ZARA integra uma base de conhecimento de características pareadas derivada automaticamente que captura estatísticas discriminativas para cada par de atividades, um módulo de recuperação multi-sensor que traz evidências relevantes à tona, e um pipeline hierárquico de agentes que guia o LLM a selecionar iterativamente características, utilizar essas evidências e produzir tanto previsões de atividades quanto explicações em linguagem natural. O ZARA permite HAR flexível e interpretável sem qualquer ajuste fino ou classificadores específicos para tarefas. Experimentos extensivos em 8 benchmarks de HAR mostram que o ZARA alcança desempenho zero-shot de ponta, oferecendo raciocínio claro enquanto supera os baselines mais fortes em 2,53x no F1 macro. Estudos de ablação confirmam ainda a necessidade de cada módulo, marcando o ZARA como um passo promissor em direção à análise confiável e plug-and-play de séries temporais de movimento. Nossos códigos estão disponíveis em https://github.com/zechenli03/ZARA.