Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o rStar2-Agent, um modelo de raciocínio matemático de 14B treinado com aprendizado por reforço agentivo para alcançar desempenho de ponta. Além das atuais abordagens de Chain-of-Thought (CoT) longas, o modelo demonstra comportamentos cognitivos avançados, como pensar cuidadosamente antes de usar ferramentas de codificação em Python e refletir sobre o feedback da execução de código para explorar, verificar e refinar autonomamente etapas intermediárias na resolução de problemas complexos. Essa capacidade é habilitada por três inovações-chave que tornam o RL agentivo eficaz em escala: (i) uma infraestrutura de RL eficiente com um ambiente confiável de código Python que suporta execução de alta taxa de transferência e mitiga os altos custos de rollout, permitindo o treinamento com recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, um algoritmo de RL agentivo com uma estratégia de rollout Resample-on-Correct que aborda os ruídos inerentes do ambiente provenientes de ferramentas de codificação, permitindo que o modelo raciocine de forma mais eficaz em um ambiente de código; (iii) Uma receita eficiente de treinamento de agentes que começa com SFT (Supervised Fine-Tuning) não orientado ao raciocínio e progride por múltiplos estágios de RL, resultando em habilidades cognitivas avançadas com custo computacional mínimo. Com isso, o rStar2-Agent eleva um modelo pré-treinado de 14B ao estado da arte em apenas 510 passos de RL em uma semana, alcançando pontuações médias pass@1 de 80,6% no AIME24 e 69,8% no AIME25, superando o DeepSeek-R1 (671B) com respostas significativamente mais curtas. Além da matemática, o rStar2-Agent-14B também demonstra forte generalização para tarefas de alinhamento, raciocínio científico e uso agentivo de ferramentas. O código e as receitas de treinamento estão disponíveis em https://github.com/microsoft/rStar.
Avanços recentes destacam a importância dos métodos de aprendizado por reforço baseados em GRPO e de benchmarking para aprimorar a geração de texto para imagem (T2I). No entanto, os métodos atuais que utilizam modelos de recompensa pontual (RM) para pontuar imagens geradas são suscetíveis a manipulação de recompensa. Revelamos que isso ocorre quando diferenças mínimas de pontuação entre imagens são amplificadas após a normalização, criando vantagens ilusórias que levam o modelo a otimizar excessivamente para ganhos triviais, desestabilizando, por fim, o processo de geração de imagens. Para resolver isso, propomos o Pref-GRPO, um método GRPO baseado em recompensa de preferência pareada que muda o objetivo de otimização da maximização de pontuação para o ajuste de preferências, garantindo um treinamento mais estável. No Pref-GRPO, as imagens são comparadas em pares dentro de cada grupo usando um RM de preferência, e a taxa de vitória é usada como sinal de recompensa. Experimentos extensivos demonstram que o Pref-GRPO diferencia sutis diferenças de qualidade de imagem, proporcionando vantagens mais estáveis e mitigando a manipulação de recompensa. Além disso, os benchmarks T2I existentes são limitados por critérios de avaliação grosseiros, dificultando uma avaliação abrangente dos modelos. Para resolver isso, introduzimos o UniGenBench, um benchmark T2I unificado composto por 600 prompts abrangendo 5 temas principais e 20 subtemas. Ele avalia a consistência semântica por meio de 10 critérios primários e 27 subcritérios, aproveitando MLLM para a construção e avaliação do benchmark. Nossos benchmarks revelam os pontos fortes e fracos dos modelos T2I de código aberto e fechado e validam a eficácia do Pref-GRPO.
Apresentamos o MCP-Bench, um benchmark para avaliar modelos de linguagem de grande escala (LLMs) em tarefas realistas e de múltiplas etapas que exigem o uso de ferramentas, coordenação entre ferramentas, controle preciso de parâmetros e planejamento/raciocínio para a resolução de tarefas. Construído sobre o Protocolo de Contexto de Modelo (MCP), o MCP-Bench conecta LLMs a 28 servidores MCP ativos e representativos, abrangendo 250 ferramentas em domínios como finanças, viagens, computação científica e busca acadêmica. Diferente de benchmarks anteriores baseados em APIs, cada servidor MCP oferece um conjunto de ferramentas complementares projetadas para funcionar em conjunto, permitindo a construção de tarefas autênticas de múltiplas etapas com acoplamento rico de entrada e saída. As tarefas no MCP-Bench testam a capacidade dos agentes de recuperar ferramentas relevantes a partir de instruções vagas sem nomes explícitos de ferramentas, planejar trajetórias de execução de múltiplos saltos para objetivos complexos, fundamentar respostas em saídas intermediárias de ferramentas e orquestrar fluxos de trabalho entre domínios — capacidades não adequadamente avaliadas por benchmarks existentes que dependem de especificações explícitas de ferramentas, fluxos de trabalho superficiais de poucas etapas e operações isoladas em domínios. Propomos um framework de avaliação multifacetado que abrange o entendimento e uso de esquemas em nível de ferramenta, planejamento em nível de trajetória e conclusão de tarefas. Experimentos com 20 LLMs avançados revelam desafios persistentes no MCP-Bench. Código e dados: https://github.com/Accenture/mcp-bench.
A literatura existente geralmente trata a geração orientada por estilo e a orientada por assunto como duas tarefas distintas: a primeira prioriza a similaridade estilística, enquanto a segunda insiste na consistência do assunto, resultando em um aparente antagonismo. Argumentamos que ambos os objetivos podem ser unificados em um único framework, pois, em última análise, dizem respeito à desagregação e recomposição de conteúdo e estilo, um tema de longa data na pesquisa orientada por estilo. Para isso, apresentamos o USO, um modelo de personalização otimizado unificado para estilo e assunto. Primeiro, construímos um grande conjunto de dados de triplas consistindo em imagens de conteúdo, imagens de estilo e suas correspondentes imagens de conteúdo estilizadas. Segundo, introduzimos um esquema de aprendizado desagregado que alinha simultaneamente características de estilo e desagrega conteúdo de estilo por meio de dois objetivos complementares: treinamento de alinhamento de estilo e treinamento de desagregação conteúdo-estilo. Terceiro, incorporamos um paradigma de aprendizado por recompensa de estilo, denominado SRL, para aprimorar ainda mais o desempenho do modelo. Por fim, lançamos o USO-Bench, o primeiro benchmark que avalia conjuntamente a similaridade de estilo e a fidelidade ao assunto em múltiplas métricas. Experimentos extensivos demonstram que o USO alcança desempenho de ponta entre os modelos de código aberto em ambas as dimensões de consistência de assunto e similaridade de estilo. Código e modelo: https://github.com/bytedance/USO
O paradigma de aprendizado pela prática é crucial para o desenvolvimento de sistemas de IA Agêntica capazes, mas é severamente limitado pela geração ineficiente de experiências, um gargalo especialmente pronunciado em benchmarks complexos como o GAIA. Para resolver isso, introduzimos o AWorld, um sistema de código aberto projetado para interação em larga escala entre agentes e ambientes. Ao distribuir tarefas por um cluster, o AWorld acelera a coleta de experiências em 14,6 vezes em comparação com a execução sequencial padrão em um único nó. Essa aceleração crítica torna o aprendizado por reforço extensivo prático e escalável. Aproveitando essa capacidade, treinamos um agente baseado no Qwen3-32B que supera significativamente seu modelo base, aumentando sua precisão geral no GAIA de 21,59% para 32,23%. Nos níveis mais desafiadores do benchmark, nosso agente alcança uma pontuação de 16,33%, superando o desempenho de modelos proprietários líderes. Nosso sistema de código aberto e o agente resultante fornecem um modelo prático para um pipeline completo de treinamento de IA Agêntica, desde a interação eficiente até a melhoria demonstrável do modelo.
A geração de vídeos longos é fundamentalmente um problema de memória de contexto longo: os modelos devem reter e recuperar eventos salientes ao longo de um intervalo extenso sem colapsar ou desviar. No entanto, escalar transformers de difusão para gerar vídeos de contexto longo é fundamentalmente limitado pelo custo quadrático da autoatenção, o que torna a memória e a computação intratáveis e difíceis de otimizar para sequências longas. Reinterpretamos a geração de vídeos de contexto longo como uma tarefa de recuperação de informação interna e propomos um módulo simples e aprendível de roteamento de atenção esparsa, Mixture of Contexts (MoC), como um mecanismo eficaz de recuperação de memória de longo prazo. No MoC, cada consulta seleciona dinamicamente alguns blocos informativos mais âncoras obrigatórias (legendas, janelas locais) para atender, com roteamento causal que evita fechamentos de loop. À medida que escalamos os dados e gradualmente esparsificamos o roteamento, o modelo aloca computação para o histórico saliente, preservando identidades, ações e cenas ao longo de minutos de conteúdo. A eficiência surge como um subproduto da recuperação (escalonamento quase linear), o que permite treinamento e síntese práticos, e o surgimento de memória e consistência na escala de minutos.
Dados de instrução diversificados são vitais para o ajuste eficaz de instruções em grandes modelos de linguagem, pois permitem que o modelo generalize diferentes tipos de entradas. Construir um conjunto de dados de instruções tão diversificado é um passo essencial nesse processo. As abordagens existentes frequentemente aproveitam grandes modelos de linguagem para explorar e gerar automaticamente instruções diversificadas, garantindo tanto a diversidade quanto a qualidade dos dados. No entanto, elas tendem a negligenciar um fator importante em aplicações do mundo real: a relevância da tarefa. Na prática, apenas algumas aplicações do mundo real exigem um modelo verdadeiramente de propósito geral; a maioria se beneficia de conhecimento específico da tarefa, adaptado ao seu caso de uso particular. Portanto, é crucial desenvolver métodos de aumento de instruções que não apenas mantenham a diversidade, mas também sejam otimizados para cenários específicos do mundo real. Assim, apresentamos o Aumento de Instruções Centrado na Tarefa (Task Centric Instruction Augmentation - TCIA), uma estrutura que expande sistematicamente as instruções enquanto preserva tanto a diversidade quanto o alinhamento com a tarefa. Ao representar as instruções em um espaço discreto de consultas e restrições, o TCIA cria um conjunto rico de instruções relevantes para a tarefa e permite que os modelos generalizem essas instruções específicas sem sacrificar o desempenho geral. Experimentos mostram que o TCIA melhora o desempenho de modelos de linguagem de código aberto em uma média de 8,7% em quatro aplicações específicas do mundo real, e em alguns casos supera modelos líderes de código fechado. Essas melhorias não comprometem a capacidade geral de seguir instruções, tornando o TCIA uma solução escalável e eficiente para adaptar grandes modelos de linguagem a aplicações do mundo real focadas em tarefas.
Apresentamos o primeiro rastreador de pontos 3D multi-visão baseado em dados, projetado para rastrear pontos arbitrários em cenas dinâmicas utilizando múltiplas visões de câmera. Diferentemente dos rastreadores monoculares existentes, que enfrentam dificuldades com ambiguidades de profundidade e oclusão, ou dos métodos multi-câmera anteriores que exigem mais de 20 câmeras e uma otimização tediosa por sequência, nosso modelo feed-forward prevê diretamente correspondências 3D utilizando um número prático de câmeras (por exemplo, quatro), permitindo um rastreamento online robusto e preciso. Dadas as poses conhecidas das câmeras e a profundidade multi-visão baseada em sensores ou estimada, nosso rastreador funde características multi-visão em uma nuvem de pontos unificada e aplica correlação de k-vizinhos-mais-próximos juntamente com uma atualização baseada em transformer para estimar de forma confiável correspondências 3D de longo alcance, mesmo sob oclusão. Treinamos em 5K sequências sintéticas multi-visão do Kubric e avaliamos em dois benchmarks do mundo real: Panoptic Studio e DexYCB, alcançando erros medianos de trajetória de 3,1 cm e 2,0 cm, respectivamente. Nosso método generaliza bem para diversas configurações de câmeras de 1-8 visões com pontos de vista variados e comprimentos de vídeo de 24-150 quadros. Ao liberar nosso rastreador juntamente com conjuntos de dados de treinamento e avaliação, visamos estabelecer um novo padrão para a pesquisa de rastreamento 3D multi-visão e fornecer uma ferramenta prática para aplicações do mundo real. Página do projeto disponível em https://ethz-vlg.github.io/mvtracker.
O alinhamento de segurança em Modelos de Linguagem de Grande Escala (LLMs) frequentemente envolve a mediação de representações internas para recusar solicitações prejudiciais. Pesquisas recentes demonstraram que esses mecanismos de segurança podem ser contornados ao se ablar ou remover direções representacionais específicas dentro do modelo. Neste artigo, propomos a abordagem oposta: a Injeção de Segurança de Rank Um (ROSI), um método de caixa branca que amplifica o alinhamento de segurança de um modelo ao direcionar permanentemente suas ativações para o subespaço de mediação de recusa. O ROSI opera como uma modificação simples e sem necessidade de ajuste fino, aplicada a todas as matrizes de escrita do fluxo residual. A direção de segurança necessária pode ser calculada a partir de um pequeno conjunto de pares de instruções prejudiciais e inofensivas. Mostramos que o ROSI aumenta consistentemente as taxas de recusa de segurança - conforme avaliado pelo Llama Guard 3 - enquanto preserva a utilidade do modelo em benchmarks padrão, como MMLU, HellaSwag e Arc. Além disso, demonstramos que o ROSI também pode realinhar modelos 'não censurados' ao amplificar suas próprias direções de segurança latentes, mostrando sua utilidade como um procedimento de segurança eficaz para a última etapa. Nossos resultados sugerem que o direcionamento de pesos interpretável e direcionado é um mecanismo barato e potente para melhorar a segurança dos LLMs, complementando paradigmas de ajuste fino mais intensivos em recursos.
Neste artigo, apresentamos o OneReward, um framework unificado de aprendizado por reforço que aprimora as capacidades generativas do modelo em múltiplas tarefas sob diferentes critérios de avaliação utilizando apenas Um Modelo de Recompensa. Ao empregar um único modelo de visão e linguagem (VLM) como modelo de recompensa generativa, capaz de distinguir o vencedor e o perdedor para uma determinada tarefa e um critério de avaliação específico, ele pode ser efetivamente aplicado a modelos de geração multitarefa, especialmente em contextos com dados variados e objetivos de tarefa diversos. Utilizamos o OneReward para geração de imagens guiada por máscara, que pode ser subdividida em várias subtarefas, como preenchimento de imagem, extensão de imagem, remoção de objetos e renderização de texto, envolvendo uma máscara binária como área de edição. Embora essas tarefas específicas de domínio compartilhem o mesmo paradigma de condicionamento, elas diferem significativamente nas distribuições de dados subjacentes e nas métricas de avaliação. Métodos existentes frequentemente dependem de ajuste fino supervisionado (SFT) específico para cada tarefa, o que limita a generalização e a eficiência do treinamento. Com base no OneReward, desenvolvemos o Seedream 3.0 Fill, um modelo de geração guiada por máscara treinado via aprendizado por reforço multitarefa diretamente em um modelo base pré-treinado, eliminando a necessidade de SFT específico para cada tarefa. Resultados experimentais demonstram que nosso modelo de edição unificado supera consistentemente tanto concorrentes comerciais quanto de código aberto, como Ideogram, Adobe Photoshop e FLUX Fill [Pro], em múltiplas dimensões de avaliação. Código e modelo estão disponíveis em: https://one-reward.github.io
Modelos de linguagem aumentados por ferramentas, equipados com recuperação, memória ou APIs externas, estão remodelando a IA, mas suas vantagens teóricas permanecem pouco exploradas. Neste artigo, abordamos essa questão demonstrando os benefícios da aprendizagem em ferramentas (recuperação externa) sobre a aprendizagem em pesos (memorização) para a recordação de fatos. Mostramos que o número de fatos que um modelo pode memorizar apenas em seus pesos é fundamentalmente limitado pela quantidade de parâmetros. Em contraste, provamos que o uso de ferramentas permite uma recordação ilimitada de fatos por meio de uma construção de circuito simples e eficiente. Esses resultados são validados em experimentos controlados, onde modelos que utilizam ferramentas superam consistentemente os que dependem de memorização. Além disso, demonstramos que, para modelos de linguagem grandes pré-treinados, ensinar o uso de ferramentas e regras gerais é mais eficaz do que ajustar fatos na memória. Nosso trabalho fornece uma base teórica e empírica, estabelecendo por que fluxos de trabalho aumentados por ferramentas não são apenas práticos, mas comprovadamente mais escaláveis.
Modelos recentes de Visão-Linguagem-Ação (VLA) construídos sobre Modelos de Visão-Linguagem (VLMs) pré-treinados exigem extenso pós-treinamento, resultando em um alto custo computacional que limita a escalabilidade e a implantação. Propomos o CogVLA, uma estrutura de Visão-Linguagem-Ação Alinhada à Cognição que aproveita o roteamento e a esparsificação orientados por instruções para melhorar tanto a eficiência quanto o desempenho. O CogVLA se inspira na coordenação multimodal humana e introduz uma arquitetura progressiva de 3 estágios. 1) O Roteamento de Agregação Baseado em Encoder-FiLM (EFA-Routing) injeta informações de instruções no codificador de visão para agregar e comprimir seletivamente tokens visuais de fluxo duplo, formando uma representação latente consciente das instruções. 2) Com base nessa codificação visual compacta, o Roteamento de Poda Baseado em LLM-FiLM (LFP-Routing) introduz a intenção de ação no modelo de linguagem ao podar tokens visualmente fundamentados irrelevantes para as instruções, alcançando assim esparsidade em nível de token. 3) Para garantir que as entradas de percepção comprimidas ainda possam suportar a geração de ações precisas e coerentes, introduzimos a Atenção Acoplada V-L-A (CAtten), que combina a atenção causal visão-linguagem com a decodificação paralela bidirecional de ações. Experimentos extensivos no benchmark LIBERO e em tarefas robóticas do mundo real demonstram que o CogVLA alcança desempenho de ponta com taxas de sucesso de 97,4% e 70,0%, respectivamente, enquanto reduz os custos de treinamento em 2,5 vezes e diminui a latência de inferência em 2,8 vezes em comparação com o OpenVLA. O CogVLA é de código aberto e está disponível publicamente em https://github.com/JiuTian-VL/CogVLA.
Modelos de Linguagem de Grande Escala (LLMs) podem enfrentar dificuldades para equilibrar a credulidade em relação à desinformação e a resistência a correções válidas em diálogos persuasivos, um desafio crítico para a implantação confiável. Apresentamos o DuET-PD (Avaliação Dual para Confiança em Diálogos Persuasivos), um framework que avalia a dinâmica de mudança de posicionamento em múltiplos turnos ao longo de duas dimensões: tipo de persuasão (corretiva/enganosa) e domínio (conhecimento via MMLU-Pro, e segurança via SALAD-Bench). Descobrimos que mesmo um modelo de última geração como o GPT-4o alcança apenas 27,32% de precisão no MMLU-Pro sob persuasões enganosas sustentadas. Além disso, os resultados revelam uma tendência preocupante de aumento de sifofania em modelos open-source mais recentes. Para abordar isso, introduzimos o Holistic DPO, uma abordagem de treinamento que equilibra exemplos de persuasão positivos e negativos. Diferente de técnicas de prompt ou treinamento apenas de resistência, o Holistic DPO melhora tanto a robustez à desinformação quanto a receptividade a correções, aumentando a precisão do Llama-3.1-8B-Instruct sob persuasão enganosa em contextos de segurança de 4,21% para 76,54%. Essas contribuições oferecem um caminho para o desenvolvimento de LLMs mais confiáveis e adaptáveis para diálogos de múltiplos turnos. O código está disponível em https://github.com/Social-AI-Studio/DuET-PD.
Apresentamos o FakeParts, uma nova classe de deepfakes caracterizada por manipulações sutis e localizadas em regiões espaciais específicas ou segmentos temporais de vídeos que, de outra forma, seriam autênticos. Diferente de conteúdos totalmente sintéticos, essas manipulações parciais, que variam desde expressões faciais alteradas até substituições de objetos e modificações de fundo, integram-se perfeitamente com elementos reais, tornando-os particularmente enganosos e difíceis de detectar. Para abordar a lacuna crítica nas capacidades de detecção, apresentamos o FakePartsBench, o primeiro conjunto de dados de referência em larga escala projetado especificamente para capturar todo o espectro de deepfakes parciais. Composto por mais de 25 mil vídeos com anotações de manipulação em nível de pixel e de quadro, nosso conjunto de dados permite uma avaliação abrangente de métodos de detecção. Nossos estudos com usuários demonstram que o FakeParts reduz a precisão de detecção humana em mais de 30% em comparação com deepfakes tradicionais, com degradação de desempenho semelhante observada em modelos de detecção state-of-the-art. Este trabalho identifica uma vulnerabilidade urgente nas abordagens atuais de detecção de deepfakes e fornece os recursos necessários para desenvolver métodos mais robustos para manipulações parciais de vídeo.
A remoção de objetos em vídeos alcançou um desempenho avançado devido ao recente sucesso dos modelos generativos de vídeo. No entanto, ao abordar os efeitos colaterais dos objetos, como suas sombras e reflexos, os trabalhos existentes lutam para eliminar esses efeitos devido à escassez de dados de vídeo pareados como supervisão. Este artigo apresenta o ROSE, denominado Remove Objects with Side Effects, um framework que estuda sistematicamente os efeitos dos objetos no ambiente, que podem ser categorizados em cinco casos comuns: sombras, reflexos, luz, translucidez e espelho. Diante dos desafios de curar vídeos pareados que exibem os efeitos mencionados, utilizamos um motor de renderização 3D para a geração de dados sintéticos. Construímos cuidadosamente um pipeline totalmente automático para preparação de dados, que simula um conjunto de dados pareados em grande escala com diversas cenas, objetos, ângulos de filmagem e trajetórias de câmera. O ROSE é implementado como um modelo de inpainting de vídeo baseado em transformadores de difusão. Para localizar todas as áreas correlacionadas ao objeto, o vídeo inteiro é alimentado no modelo para apagamento baseado em referência. Além disso, uma supervisão adicional é introduzida para prever explicitamente as áreas afetadas pelos efeitos colaterais, que podem ser reveladas através da máscara diferencial entre os vídeos pareados. Para investigar completamente o desempenho do modelo na remoção de vários efeitos colaterais, apresentamos um novo benchmark, denominado ROSE-Bench, incorporando tanto cenários comuns quanto os cinco efeitos colaterais especiais para avaliação abrangente. Os resultados experimentais demonstram que o ROSE alcança um desempenho superior em comparação com os modelos existentes de apagamento de objetos em vídeo e generaliza bem para cenários de vídeo do mundo real. A página do projeto está disponível em https://rose2025-inpaint.github.io/.
Apresentamos o Dress&Dance, um framework de difusão de vídeo que gera vídeos de experimentação virtual de alta qualidade com 5 segundos de duração, 24 FPS e resolução de 1152x720, mostrando um usuário vestindo as peças desejadas enquanto se move de acordo com um vídeo de referência fornecido. Nossa abordagem requer uma única imagem do usuário e suporta uma variedade de peças superiores, inferiores e vestidos, além de permitir a experimentação simultânea de peças superiores e inferiores em uma única passagem. A chave do nosso framework é o CondNet, uma rede de condicionamento inovadora que utiliza atenção para unificar entradas multimodais (texto, imagens e vídeos), melhorando assim o registro das peças e a fidelidade do movimento. O CondNet é treinado com dados heterogêneos, combinando um conjunto limitado de vídeos e um conjunto maior e mais acessível de imagens, de forma progressiva e em múltiplos estágios. O Dress&Dance supera as soluções existentes, tanto de código aberto quanto comerciais, proporcionando uma experiência de experimentação de alta qualidade e flexível.
O conteúdo 3D possui, por natureza, características multimodais e pode ser projetado em diferentes modalidades (por exemplo, imagens RGB, RGBD e nuvens de pontos). Cada modalidade apresenta vantagens distintas na modelagem de ativos 3D: as imagens RGB contêm texturas 3D vívidas, enquanto as nuvens de pontos definem geometrias 3D detalhadas. No entanto, a maioria das arquiteturas generativas nativas 3D existentes opera predominantemente em paradigmas de modalidade única, ignorando assim os benefícios complementares dos dados multimodais, ou se restringe a estruturas 3D, limitando o escopo dos conjuntos de dados de treinamento disponíveis. Para aproveitar holisticamente as multimodais na modelagem 3D, apresentamos o TriMM, o primeiro modelo generativo nativo 3D de avanço direto que aprende a partir de multimodais básicas (por exemplo, RGB, RGBD e nuvem de pontos). Especificamente, 1) o TriMM introduz primeiro a codificação multimodal colaborativa, que integra características específicas de cada modalidade, preservando seus pontos fortes representacionais únicos. 2) Além disso, supervisões auxiliares 2D e 3D são introduzidas para aumentar a robustez e o desempenho da codificação multimodal. 3) Com base no código multimodal incorporado, o TriMM emprega um modelo de difusão latente triplano para gerar ativos 3D de qualidade superior, aprimorando tanto a textura quanto o detalhe geométrico. Experimentos extensivos em vários conjuntos de dados conhecidos demonstram que o TriMM, ao aproveitar efetivamente a multimodalidade, alcança desempenho competitivo com modelos treinados em grandes conjuntos de dados, apesar de utilizar uma pequena quantidade de dados de treinamento. Além disso, realizamos experimentos adicionais em conjuntos de dados RGB-D recentes, verificando a viabilidade de incorporar outros conjuntos de dados multimodais na geração 3D.
À medida que os diálogos de múltiplos turnos com modelos de linguagem de grande escala (LLMs) se tornam mais longos e complexos, como os usuários podem avaliar e revisar melhor o progresso em relação aos seus objetivos conversacionais? Apresentamos o OnGoal, uma interface de chat com LLM que ajuda os usuários a gerenciar melhor o progresso de seus objetivos. O OnGoal fornece feedback em tempo real sobre o alinhamento de objetivos por meio de avaliação assistida por LLM, explicações para os resultados da avaliação com exemplos e visões gerais da progressão dos objetivos ao longo do tempo, permitindo que os usuários naveguem em diálogos complexos de forma mais eficaz. Por meio de um estudo com 20 participantes em uma tarefa de escrita, avaliamos o OnGoal em comparação com uma interface de chat básica sem rastreamento de objetivos. Usando o OnGoal, os participantes gastaram menos tempo e esforço para alcançar seus objetivos enquanto exploravam novas estratégias de prompt para superar falhas de comunicação, sugerindo que o rastreamento e a visualização de objetivos podem aumentar o engajamento e a resiliência em diálogos com LLMs. Nossas descobertas inspiraram implicações de design para futuras interfaces de chat com LLM que melhoram a comunicação de objetivos, reduzem a carga cognitiva, aumentam a interatividade e permitem feedback para melhorar o desempenho dos LLMs.
Os comportamentos sociais humanos são inerentemente multimodais, o que exige o desenvolvimento de modelos audiovisuais poderosos para sua percepção. Neste artigo, apresentamos o Social-MAE, nosso Autoencoder Mascarado audiovisual pré-treinado, baseado em uma versão estendida do Autoencoder Mascarado Audiovisual Contrastivo (CAV-MAE), que é pré-treinado em dados audiovisuais sociais. Especificamente, modificamos o CAV-MAE para receber um número maior de quadros como entrada e o pré-treinamos em um grande conjunto de dados de interação social humana (VoxCeleb2) de maneira auto-supervisionada. Demonstramos a eficácia desse modelo ao ajustá-lo e avaliá-lo em diferentes tarefas sociais e afetivas subsequentes, nomeadamente, reconhecimento de emoções, detecção de risos e estimativa de personalidade aparente. O modelo alcança resultados de ponta em reconhecimento multimodal de emoções e reconhecimento de risos, além de resultados competitivos na estimativa de personalidade aparente, demonstrando a eficácia do pré-treinamento auto-supervisionado em domínio específico. O código e os pesos do modelo estão disponíveis aqui https://github.com/HuBohy/SocialMAE.