Artigos de pesquisa em IA selecionados diariamente com traduções
Os recentes avanços na geração de vídeos têm alcançado um realismo impressionante em termos de movimento, mas frequentemente negligenciam a narrativa centrada em personagens, uma tarefa crucial para a automação de filmes e geração de animações. Apresentamos o Talking Characters, uma tarefa mais realista que gera animações de personagens falantes diretamente a partir de fala e texto. Diferente do talking head, o Talking Characters visa gerar o retrato completo de um ou mais personagens, indo além da região facial. Neste artigo, propomos o MoCha, o primeiro do seu tipo a gerar personagens falantes. Para garantir uma sincronização precisa entre vídeo e fala, propomos um mecanismo de atenção de janela fala-vídeo que alinha efetivamente os tokens de fala e vídeo. Para lidar com a escassez de grandes conjuntos de dados de vídeos rotulados com fala, introduzimos uma estratégia de treinamento conjunto que aproveita tanto dados de vídeo rotulados com fala quanto com texto, melhorando significativamente a generalização em diversas ações de personagens. Também projetamos modelos de prompt estruturados com tags de personagens, permitindo, pela primeira vez, conversas com múltiplos personagens com diálogos baseados em turnos — possibilitando que personagens gerados por IA se envolvam em conversas contextualmente conscientes com coerência cinematográfica. Avaliações qualitativas e quantitativas extensas, incluindo estudos de preferência humana e comparações com benchmarks, demonstram que o MoCha estabelece um novo padrão para a narrativa cinematográfica gerada por IA, alcançando realismo superior, expressividade, controlabilidade e generalização.
Este artigo explora a tarefa de Geração de Texto Visual Complexo (CVTG, na sigla em inglês), que se concentra na criação de conteúdo textual intrincado distribuído em diversas regiões dentro de imagens visuais. No CVTG, os modelos de geração de imagens frequentemente produzem textos visuais distorcidos e borrados ou omitem alguns textos visuais. Para enfrentar esses desafios, propomos o TextCrafter, um novo método de renderização de múltiplos textos visuais. O TextCrafter emprega uma estratégia progressiva para decompor textos visuais complexos em componentes distintos, garantindo um alinhamento robusto entre o conteúdo textual e seu suporte visual. Além disso, ele incorpora um mecanismo de aprimoramento de foco em tokens para ampliar a proeminência do texto visual durante o processo de geração. O TextCrafter aborda efetivamente desafios-chave em tarefas de CVTG, como confusão, omissões e borrões no texto. Adicionalmente, apresentamos um novo conjunto de dados de referência, o CVTG-2K, projetado para avaliar rigorosamente o desempenho de modelos generativos em tarefas de CVTG. Experimentos extensivos demonstram que nosso método supera abordagens state-of-the-art.
Apresentamos o Open-Reasoner-Zero, a primeira implementação de código aberto de treinamento de RL em grande escala orientado para raciocínio, com foco em escalabilidade, simplicidade e acessibilidade. Por meio de extensos experimentos, demonstramos que uma abordagem minimalista, utilizando PPO básico com GAE (lambda=1, gamma=1) e recompensas baseadas em regras diretas, sem qualquer regularização KL, é suficiente para escalar tanto o comprimento das respostas quanto o desempenho em benchmarks, semelhante ao fenômeno observado no DeepSeek-R1-Zero. Utilizando o mesmo modelo base do DeepSeek-R1-Zero-Qwen-32B, nossa implementação alcança desempenho superior nos benchmarks AIME2024, MATH500 e GPQA Diamond, ao mesmo tempo que demonstra eficiência notável -- exigindo apenas um décimo dos passos de treinamento em comparação com o pipeline do DeepSeek-R1-Zero. No espírito do código aberto, disponibilizamos nosso código-fonte, configurações de parâmetros, dados de treinamento e pesos do modelo em vários tamanhos.
À medida que o entusiasmo pelo escalonamento de computação (dados e parâmetros) na era de pré-treinamento gradualmente diminuiu, o escalonamento em tempo de teste (TTS), também referido como "computação em tempo de teste", emergiu como um foco de pesquisa proeminente. Estudos recentes demonstram que o TTS pode aprimorar ainda mais as capacidades de resolução de problemas de grandes modelos de linguagem (LLMs), permitindo avanços significativos não apenas em tarefas especializadas de raciocínio, como matemática e codificação, mas também em tarefas gerais, como perguntas e respostas abertas. No entanto, apesar da explosão de esforços recentes nessa área, ainda há uma necessidade urgente de uma pesquisa abrangente que ofereça um entendimento sistêmico. Para preencher essa lacuna, propomos uma estrutura unificada e multidimensional organizada em torno de quatro dimensões centrais da pesquisa em TTS: o que escalonar, como escalonar, onde escalonar e quão bem escalonar. Com base nessa taxonomia, realizamos uma revisão extensa de métodos, cenários de aplicação e aspectos de avaliação, e apresentamos uma decomposição organizada que destaca os papéis funcionais únicos de técnicas individuais dentro do panorama mais amplo do TTS. A partir dessa análise, destilamos as principais trajetórias de desenvolvimento do TTS até o momento e oferecemos diretrizes práticas para implantação. Além disso, identificamos vários desafios em aberto e oferecemos insights sobre direções futuras promissoras, incluindo maior escalonamento, esclarecimento da essência funcional das técnicas, generalização para mais tarefas e mais atribuições.
Modelos de Raciocínio em Grande Escala (LRMs) melhoram significativamente a capacidade de raciocínio dos Modelos de Linguagem em Grande Escala (LLMs) ao aprender a raciocinar, demonstrando desempenho promissor na resolução de tarefas complexas. No entanto, seu processo de raciocínio deliberativo resulta em ineficiências no uso de tokens, consumo de memória e tempo de inferência. Assim, este estudo fornece uma revisão dos métodos de inferência eficiente projetados especificamente para LRMs, com foco em mitigar a ineficiência de tokens enquanto preserva a qualidade do raciocínio. Primeiro, introduzimos uma taxonomia para agrupar os métodos recentes em duas categorias principais: (a) Cadeia de Pensamento (CoT) compacta explícita, que reduz os tokens mantendo a estrutura de raciocínio explícita, e (b) CoT latente implícita, que codifica etapas de raciocínio em representações ocultas em vez de tokens explícitos. Enquanto isso, discutimos seus pontos fortes e fracos. Em seguida, realizamos análises empíricas sobre os métodos existentes sob os aspectos de desempenho e eficiência. Além disso, apresentamos desafios em aberto neste campo, incluindo raciocínio controlado centrado no ser humano, equilíbrio entre interpretabilidade e eficiência do raciocínio, garantia de segurança do raciocínio eficiente e aplicações mais amplas do raciocínio eficiente. Adicionalmente, destacamos insights-chave para aprimorar a eficiência de inferência dos LRMs por meio de técnicas como fusão de modelos, novas arquiteturas e roteadores de agentes. Esperamos que este trabalho sirva como um guia valioso, ajudando os pesquisadores a superar desafios neste campo vibrante.
A síntese de Interações Humano-Cenário (HSI) diversas e fisicamente plausíveis é crucial tanto para a animação computacional quanto para a IA incorporada. Apesar de progressos encorajadores, os métodos atuais concentram-se principalmente no desenvolvimento de controladores separados, cada um especializado em uma tarefa de interação específica. Isso dificulta significativamente a capacidade de abordar uma ampla variedade de tarefas desafiadoras de HSI que exigem a integração de múltiplas habilidades, como, por exemplo, sentar-se enquanto carrega um objeto. Para resolver esse problema, apresentamos o TokenHSI, uma política única e unificada baseada em transformadores, capaz de unificar múltiplas habilidades e se adaptar de forma flexível. A ideia central é modelar a propriocepção do humanoide como um token compartilhado separado e combiná-lo com tokens de tarefas distintas por meio de um mecanismo de mascaramento. Essa política unificada permite o compartilhamento eficaz de conhecimento entre habilidades, facilitando assim o treinamento multitarefa. Além disso, a arquitetura da nossa política suporta entradas de comprimento variável, permitindo a adaptação flexível das habilidades aprendidas a novos cenários. Ao treinar tokenizadores de tarefas adicionais, podemos não apenas modificar as geometrias dos alvos de interação, mas também coordenar múltiplas habilidades para abordar tarefas complexas. Os experimentos demonstram que nossa abordagem pode melhorar significativamente a versatilidade, adaptabilidade e extensibilidade em várias tarefas de HSI. Website: https://liangpan99.github.io/TokenHSI/
O treinamento de modelos visão-linguagem (VLMs) geralmente requer pares de imagem-texto em grande escala e de alta qualidade, mas a coleta ou síntese desses dados é custosa. Em contraste, os dados textuais são abundantes e de baixo custo, levantando a questão: é possível sintetizar dados multimodais de alta qualidade puramente a partir de texto? Para abordar isso, propomos uma estrutura de síntese de dados multimodais em três estágios integrados, que gera dois conjuntos de dados: Unicorn-1.2M e Unicorn-471K-Instruction. No Estágio 1: Síntese de Dados de Legendas Diversas, construímos 1,2 milhão de legendas semanticamente diversas e de alta qualidade, expandindo sementes de legendas esparsas usando modelos de linguagem de grande escala (LLMs). No Estágio 2: Geração de Dados para Ajuste por Instrução, processamos ainda mais 471 mil legendas em tarefas de ajuste por instrução de múltiplas etapas para suportar raciocínio complexo. Finalmente, no Estágio 3: Transferência de Representação de Modalidade, essas representações textuais de legendas são transformadas em representações visuais, resultando em representações sintéticas de imagens diversas. Esse processo de três estágios nos permite construir o Unicorn-1.2M para pré-treinamento e o Unicorn-471K-Instruction para ajuste por instrução, sem depender de imagens reais. Ao eliminar a dependência de imagens reais enquanto mantém a qualidade e diversidade dos dados, nossa estrutura oferece uma solução econômica e escalável para o treinamento de VLMs. O código está disponível em https://github.com/Yu-xm/Unicorn.git.
Raciocinar antes de agir e imaginar resultados potenciais (ou seja, modelos de mundo) são essenciais para agentes corporificados que operam em ambientes complexos e de mundo aberto. No entanto, trabalhos anteriores incorporam apenas uma dessas habilidades em um agente de ponta a ponta ou integram múltiplos modelos especializados em um sistema de agente, limitando a eficiência de aprendizado e a generalização da política. Assim, este artigo faz a primeira tentativa de sinergizar Raciocínio e Imaginação em uma política Generalista de ponta a ponta, denominada RIG. Para treinar o RIG de maneira ponta a ponta, construímos um pipeline de dados que integra e enriquece progressivamente o conteúdo da imaginação e do raciocínio nas trajetórias coletadas de agentes existentes. O aprendizado conjunto de raciocínio e geração da próxima imagem modela explicitamente a correlação inerente entre raciocínio, ação e dinâmica dos ambientes, exibindo assim uma melhoria de mais de 17 vezes na eficiência de amostragem e na generalização em comparação com trabalhos anteriores. Durante a inferência, o RIG primeiro raciocina sobre a próxima ação, gera uma ação potencial e, em seguida, prevê os resultados da ação, o que oferece ao agente a oportunidade de revisar e autocorrigir-se com base na imaginação antes de realizar ações reais. Resultados experimentais mostram que a sinergia entre raciocínio e imaginação não apenas melhora a robustez, generalização e interoperabilidade da política generalista, mas também permite o escalonamento em tempo de teste para aprimorar o desempenho geral.
O aprendizado por reforço (RL) com recompensas verificáveis (RLVR) tem mostrado resultados promissores em tarefas de raciocínio matemático e codificação, onde respostas de referência bem estruturadas estão disponíveis. No entanto, sua aplicabilidade em domínios mais amplos permanece pouco explorada. Neste trabalho, estudamos a extensão do RLVR para domínios mais diversos, como medicina, química, psicologia e economia. Observamos uma alta concordância em julgamentos binários entre diferentes modelos de linguagem de grande escala (LLMs) quando existem respostas de referência objetivas, o que desafia a necessidade de anotações em larga escala para treinar modelos de recompensa específicos de domínio. Para abordar as limitações das recompensas binárias ao lidar com respostas de referência não estruturadas, incorporamos ainda a pontuação suave baseada em modelos ao RLVR para melhorar sua flexibilidade. Nossos experimentos mostram que um modelo de recompensa generativo destilado pode servir como um verificador eficaz entre domínios, fornecendo sinais de recompensa confiáveis para RL sem exigir anotações específicas de domínio. Ao ajustar um modelo base de 7B usando vários algoritmos de RL contra nosso modelo de recompensa, obtemos políticas que superam os LLMs alinhados de código aberto mais avançados, como Qwen2.5-72B-Instruct e DeepSeek-R1-Distill-Qwen-32B, por uma grande margem, em diversos domínios em configurações de respostas de forma livre. Isso também fortalece a robustez e escalabilidade do RLVR, destacando seu potencial para aplicações do mundo real com rótulos ruidosos ou fracos.
A geração e edição de vídeos condicionadas por prompts de texto ou imagens passaram por avanços significativos. No entanto, desafios permanecem no controle preciso do layout global e dos detalhes geométricos apenas por textos, e no suporte ao controle de movimento e modificações locais por meio de imagens. Neste artigo, buscamos alcançar o controle espacial e de movimento baseado em esboços para a geração de vídeos e suportar a edição refinada de vídeos reais ou sintéticos. Com base no modelo de geração de vídeos DiT, propomos uma estrutura de controle eficiente em memória com blocos de controle de esboços que preveem características residuais dos blocos DiT ignorados. Esboços são desenhados em um ou dois quadros-chave (em pontos de tempo arbitrários) para facilitar a interação. Para propagar essas condições de esboço temporalmente esparsas por todos os quadros, propomos um mecanismo de atenção inter-quadros para analisar a relação entre os quadros-chave e cada quadro do vídeo. Para a edição de vídeos baseada em esboços, projetamos um módulo adicional de inserção de vídeo que mantém a consistência entre o conteúdo recém-editado e a característica espacial e o movimento dinâmico do vídeo original. Durante a inferência, utilizamos fusão latente para a preservação precisa das regiões não editadas. Experimentos extensivos demonstram que nosso SketchVideo alcança desempenho superior na geração e edição controlável de vídeos.
Modelos de linguagem de grande escala (LLMs) aprimorados para raciocínio geram explicitamente etapas intermediárias de raciocínio antes de produzir respostas finais, ajudando o modelo a se destacar na resolução de problemas complexos. Neste artigo, demonstramos que essa nova abordagem de geração oferece uma oportunidade única para um controle mais refinado do comportamento do modelo. Propomos a Intervenção de Pensamento, um paradigma inovador projetado para guiar explicitamente os processos internos de raciocínio dos LLMs por meio da inserção ou revisão estratégica de tokens de pensamento específicos. Realizamos avaliações abrangentes em diversas tarefas, incluindo seguimento de instruções no IFEval, hierarquia de instruções no SEP e alinhamento de segurança no XSTest e SORRY-Bench. Nossos resultados mostram que a Intervenção de Pensamento supera significativamente as abordagens de prompt basais, alcançando ganhos de até 6,7% em precisão em cenários de seguimento de instruções, melhorias de 15,4% no raciocínio sobre hierarquias de instruções e um aumento de 40,0% nas taxas de recusa para prompts inseguros usando os modelos open-source DeepSeek R1. No geral, nosso trabalho abre uma nova e promissora linha de pesquisa para o controle de LLMs de raciocínio.
Propomos uma abordagem inovadora para gerar saídas complexas que melhora significativamente a precisão em tarefas de texto para SQL. Nosso método utiliza os resultados da execução para selecionar a consulta mais semanticamente consistente entre múltiplos candidatos, permitindo que modelos menores e mais econômicos superem métodos de raciocínio computacionalmente intensivos, como o1, o3-mini e DeepSeek R1, ao mesmo tempo em que reduzem o custo de inferência em até 30 vezes. Ele se integra facilmente a modelos existentes, oferecendo um caminho prático e escalável para a geração de SQL de última geração.
É altamente desejável obter um modelo capaz de gerar malhas 3D de alta qualidade a partir de prompts de texto em apenas alguns segundos. Embora tentativas recentes tenham adaptado modelos de difusão pré-treinados de texto para imagem, como o Stable Diffusion (SD), em geradores de representações 3D (por exemplo, Triplane), eles frequentemente sofrem com qualidade inferior devido à falta de dados de treinamento 3D de alta qualidade suficientes. Visando superar a escassez de dados, propomos um novo esquema de treinamento, denominado Distilação de Renderização Progressiva (PRD), que elimina a necessidade de ground-truths 3D ao destilar modelos de difusão multi-visão e adaptar o SD em um gerador 3D nativo. Em cada iteração de treinamento, o PRD utiliza a U-Net para desnaturar progressivamente o latente a partir de ruído aleatório por algumas etapas, e em cada etapa ele decodifica o latente desnaturado em uma saída 3D. Modelos de difusão multi-visão, incluindo MVDream e RichDreamer, são usados em conjunto com o SD para destilar texturas e geometrias consistentes com o texto nas saídas 3D por meio de destilação de pontuação. Como o PRD suporta treinamento sem ground-truths 3D, podemos facilmente escalar os dados de treinamento e melhorar a qualidade da geração para prompts de texto desafiadores com conceitos criativos. Enquanto isso, o PRD pode acelerar a velocidade de inferência do modelo de geração em apenas algumas etapas. Com o PRD, treinamos um gerador Triplane, denominado TriplaneTurbo, que adiciona apenas 2,5% de parâmetros treináveis para adaptar o SD à geração de Triplane. O TriplaneTurbo supera os geradores anteriores de texto para 3D tanto em eficiência quanto em qualidade. Especificamente, ele pode produzir malhas 3D de alta qualidade em 1,2 segundos e generalizar bem para entradas de texto desafiadoras. O código está disponível em https://github.com/theEricMa/TriplaneTurbo.
Modelos de ação são essenciais para capacitar agentes autônomos a realizar tarefas complexas. No entanto, o treinamento de grandes modelos de ação continua desafiador devido à diversidade de ambientes de agentes e à complexidade dos dados agentivos. Apesar do crescente interesse, a infraestrutura existente oferece suporte limitado para ajuste fino escalável e específico para agentes. Apresentamos o ActionStudio, um framework leve e extensível de dados e treinamento projetado para grandes modelos de ação. O ActionStudio unifica trajetórias heterogêneas de agentes por meio de um formato padronizado, suporta diversos paradigmas de treinamento, incluindo LoRA, ajuste fino completo e configurações distribuídas, e integra ferramentas robustas de pré-processamento e verificação. Validamos sua eficácia em benchmarks públicos e realistas da indústria, demonstrando forte desempenho e escalabilidade prática. Disponibilizamos código e dados em https://github.com/SalesforceAIResearch/xLAM para facilitar a pesquisa na comunidade.
A detecção de fraudes em telecomunicações enfrenta desafios significativos devido à falta de dados de treinamento multimodal de alta qualidade que integrem sinais de áudio com análises textuais orientadas por raciocínio. Para abordar essa lacuna, apresentamos o TeleAntiFraud-28k, o primeiro conjunto de dados de pensamento lento áudio-texto de código aberto especificamente projetado para análise automatizada de fraudes em telecomunicações. Nosso conjunto de dados é construído por meio de três estratégias: (1) Geração de amostras de texto verdadeiro com preservação de privacidade usando gravações de chamadas transcritas por reconhecimento automático de fala (ASR) (com áudio original anonimizado), garantindo consistência do mundo real por meio de regeneração por modelos de texto-para-fala (TTS); (2) Aprimoramento semântico via amostragem de auto-instrução baseada em modelos de linguagem de grande escala (LLM) em saídas ASR autênticas para expandir a cobertura de cenários; (3) Síntese adversária multiagente que simula táticas emergentes de fraude por meio de cenários de comunicação predefinidos e tipologias de fraude. O conjunto de dados gerado contém 28.511 pares fala-texto rigorosamente processados, completos com anotações detalhadas para raciocínio de fraude. O conjunto de dados é dividido em três tarefas: classificação de cenário, detecção de fraude e classificação de tipo de fraude. Além disso, construímos o TeleAntiFraud-Bench, um benchmark de avaliação padronizado composto por instâncias amostradas proporcionalmente do conjunto de dados, para facilitar testes sistemáticos do desempenho do modelo em tarefas de detecção de fraude em telecomunicações. Também contribuímos com um modelo de ajuste fino supervisionado (SFT) otimizado para produção, treinado em dados híbridos reais/sintéticos, enquanto disponibilizamos o framework de processamento de dados em código aberto para permitir a expansão do conjunto de dados impulsionada pela comunidade. Este trabalho estabelece uma estrutura fundamental para pesquisa multimodal antifraude, ao mesmo tempo em que aborda desafios críticos em privacidade de dados e diversidade de cenários. O projeto será lançado em https://github.com/JimmyMa99/TeleAntiFraud.
Nos últimos anos, os grandes modelos de linguagem (LLMs) demonstraram capacidades notáveis em diversos problemas de inteligência artificial. No entanto, eles falham em planejar de forma confiável, mesmo quando instruídos com uma definição detalhada da tarefa de planejamento. Tentativas de melhorar suas capacidades de planejamento, como o prompting de cadeia de pensamento, fine-tuning e "raciocínio" explícito, ainda resultam em planos incorretos e geralmente falham em generalizar para tarefas maiores. Neste artigo, mostramos como usar LLMs para gerar planos corretos, mesmo para tarefas fora da distribuição e de tamanho crescente. Para um determinado domínio de planejamento, solicitamos que um LLM gere várias funções heurísticas dependentes do domínio na forma de código Python, as avalie em um conjunto de tarefas de treinamento dentro de uma busca gananciosa de melhor escolha e selecione a mais robusta. As heurísticas geradas pelo LLM resolvem muito mais tarefas de teste não vistas do que as heurísticas independentes de domínio de última geração para planejamento clássico. Elas são até mesmo competitivas com o algoritmo de aprendizado mais forte para planejamento dependente de domínio. Esses achados são especialmente notáveis considerando que nossa implementação de prova de conceito é baseada em um planejador Python não otimizado e as linhas de base são todas construídas sobre código C++ altamente otimizado. Em alguns domínios, as heurísticas geradas pelo LLM expandem menos estados do que as linhas de base, revelando que elas não são apenas eficientemente computáveis, mas às vezes até mais informativas do que as heurísticas de última geração. No geral, nossos resultados mostram que a amostragem de um conjunto de programas de funções heurísticas de planejamento pode melhorar significativamente as capacidades de planejamento dos LLMs.
Este trabalho foca na avatarização 4D de domínio aberto, com o objetivo de criar um avatar 4D a partir de uma imagem de retrato em um estilo arbitrário. Selecionamos triplanos paramétricos como a representação 4D intermediária e propomos um paradigma de treinamento prático que aproveita tanto as redes generativas adversariais (GANs) quanto os modelos de difusão. Nosso design surge da observação de que GANs 4D são excelentes em conectar imagens e triplanos sem supervisão, mas geralmente enfrentam desafios ao lidar com distribuições de dados diversas. Um robusto prior de difusão 2D surge como a solução, auxiliando a GAN a transferir sua expertise através de vários domínios. A sinergia entre esses especialistas permite a construção de um conjunto de dados imagem-triplano multidomínio, que impulsiona o desenvolvimento de um criador de avatares 4D geral. Experimentos extensivos sugerem que nosso modelo, AvatarArtist, é capaz de produzir avatares 4D de alta qualidade com forte robustez a diversos domínios de imagem de origem. O código, os dados e os modelos serão disponibilizados publicamente para facilitar estudos futuros.
Os recentes avanços no DUSt3R permitiram a estimativa robusta de nuvens de pontos densas e parâmetros de câmera para cenas estáticas, aproveitando arquiteturas de redes Transformer e supervisão direta em grandes conjuntos de dados 3D. Em contraste, a escala limitada e a diversidade dos conjuntos de dados 4D disponíveis representam um grande gargalo para o treinamento de um modelo 4D altamente generalizável. Essa limitação levou os métodos convencionais 4D a ajustar modelos 3D em dados de vídeo dinâmicos escaláveis com priors geométricos adicionais, como fluxo óptico e profundidades. Neste trabalho, seguimos um caminho oposto e introduzimos o Easi3R, um método simples, porém eficiente, para reconstrução 4D que dispensa treinamento. Nossa abordagem aplica adaptação de atenção durante a inferência, eliminando a necessidade de pré-treinamento do zero ou ajuste fino da rede. Descobrimos que as camadas de atenção no DUSt3R codificam intrinsecamente informações ricas sobre o movimento da câmera e dos objetos. Ao desembaraçar cuidadosamente esses mapas de atenção, alcançamos segmentação precisa de regiões dinâmicas, estimativa de pose da câmera e reconstrução de mapas de pontos densos 4D. Experimentos extensivos em vídeos dinâmicos do mundo real demonstram que nossa adaptação leve de atenção supera significativamente os métodos state-of-the-art anteriores que são treinados ou ajustados em grandes conjuntos de dados dinâmicos. Nosso código está disponível publicamente para fins de pesquisa em https://easi3r.github.io/.
No domínio da criação de conteúdo 3D, a obtenção de uma topologia de malha ideal por meio de modelos de IA tem sido uma busca constante para artistas 3D. Métodos anteriores, como o MeshGPT, exploraram a geração de objetos 3D prontos para uso por meio de técnicas autoregressivas de malha. Embora esses métodos produzam resultados visualmente impressionantes, sua dependência de previsões token por token no processo autoregressivo leva a várias limitações significativas. Estas incluem velocidades de geração extremamente lentas e um número incontável de faces da malha. Neste artigo, apresentamos o MeshCraft, uma nova estrutura para geração eficiente e controlável de malhas, que utiliza difusão espacial contínua para gerar faces triangulares discretas. Especificamente, o MeshCraft consiste em dois componentes principais: 1) um VAE baseado em transformer que codifica malhas brutas em tokens contínuos no nível das faces e as decodifica de volta às malhas originais, e 2) um transformer de difusão baseado em fluxo condicionado ao número de faces, permitindo a geração de malhas 3D de alta qualidade com um número predefinido de faces. Ao utilizar o modelo de difusão para a geração simultânea de toda a topologia da malha, o MeshCraft alcança uma geração de malhas de alta fidelidade em velocidades significativamente mais rápidas em comparação com métodos autoregressivos. Especificamente, o MeshCraft pode gerar uma malha com 800 faces em apenas 3,2 segundos (35 vezes mais rápido que as linhas de base existentes). Experimentos extensivos demonstram que o MeshCraft supera as técnicas mais avançadas em avaliações qualitativas e quantitativas no conjunto de dados ShapeNet e apresenta desempenho superior no conjunto de dados Objaverse. Além disso, ele se integra perfeitamente com estratégias de orientação condicional existentes, mostrando seu potencial para aliviar os artistas do trabalho manual demorado envolvido na criação de malhas.
A maioria dos geradores de objetos 3D focam na qualidade estética, frequentemente negligenciando as restrições físicas necessárias em aplicações práticas. Uma dessas restrições é que o objeto 3D deve ser autossustentável, ou seja, permanecer equilibrado sob a ação da gravidade. Abordagens anteriores para gerar objetos 3D estáveis utilizavam simuladores físicos diferenciáveis para otimizar a geometria em tempo de teste, o que é lento, instável e propenso a ótimos locais. Inspirados pela literatura sobre alinhamento de modelos generativos a feedback externo, propomos a Otimização por Simulação Direta (Direct Simulation Optimization - DSO), uma estrutura para utilizar o feedback de um simulador (não diferenciável) para aumentar a probabilidade de que o gerador 3D produza objetos estáveis diretamente. Construímos um conjunto de dados de objetos 3D rotulados com uma pontuação de estabilidade obtida do simulador físico. Podemos então ajustar o gerador 3D usando a pontuação de estabilidade como métrica de alinhamento, por meio da otimização de preferência direta (Direct Preference Optimization - DPO) ou da otimização de recompensa direta (Direct Reward Optimization - DRO), um novo objetivo que introduzimos para alinhar modelos de difusão sem a necessidade de preferências pareadas. Nossos experimentos mostram que o gerador ajustado, utilizando tanto o objetivo DPO quanto DRO, é muito mais rápido e tem maior probabilidade de produzir objetos estáveis do que a otimização em tempo de teste. Notavelmente, a estrutura DSO funciona mesmo sem objetos 3D de referência para treinamento, permitindo que o gerador 3D se aprimore automaticamente ao coletar feedback de simulação sobre suas próprias saídas.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) surgiram para enfrentar os desafios da Resposta a Perguntas Visuais (VQA), despertando um novo foco de pesquisa na realização de avaliações objetivas desses modelos. Os métodos de avaliação existentes enfrentam limitações devido à significativa carga de trabalho humana necessária para projetar pares de perguntas e respostas para imagens visuais, o que inerentemente restringe a escala e o escopo das avaliações. Embora abordagens automatizadas de MLLM-como-juiz tentem reduzir a carga de trabalho humana por meio de avaliações automáticas, elas frequentemente introduzem vieses. Para resolver esses problemas, propomos uma estrutura de Avaliação de MLLM por Revisão por Pares Não Supervisionada. Ela utiliza apenas dados de imagem, permitindo que os modelos gerem automaticamente perguntas e realizem avaliações por pares das respostas de outros modelos, aliviando efetivamente a dependência da carga de trabalho humana. Além disso, introduzimos o sistema de pontuação visão-linguagem para mitigar os problemas de viés, que se concentra em três aspectos: (i) correção da resposta; (ii) compreensão e raciocínio visual; e (iii) correlação imagem-texto. Os resultados experimentais demonstram que o UPME alcança uma correlação de Pearson de 0,944 com avaliações humanas no conjunto de dados MMstar e 0,814 no conjunto de dados ScienceQA, indicando que nossa estrutura está alinhada de perto com benchmarks projetados por humanos e preferências humanas inerentes.
As capacidades de resolução de problemas matemáticos dos grandes modelos de linguagem têm se tornado um foco central de pesquisa, com um interesse crescente em aproveitar caminhos de raciocínio autogerados como uma abordagem promissora para refinar e aprimorar esses modelos. Esses caminhos capturam processos lógicos passo a passo, exigindo apenas a resposta correta para supervisão. O método de autotreinamento tem se mostrado eficaz em tarefas de raciocínio, eliminando a necessidade de modelos externos e anotações manuais. No entanto, otimizar o uso de dados autogerados para o treinamento de modelos continua sendo um desafio em aberto. Neste trabalho, propomos o Entropy-Based Adaptive Weighting for Self-Training (EAST), uma estratégia de ponderação adaptativa projetada para priorizar dados incertos durante o autotreinamento. Especificamente, o EAST emprega uma função de mapeamento com um parâmetro ajustável que controla a nitidez da ponderação, atribuindo pesos maiores a dados onde o modelo exibe maior incerteza. Essa abordagem orienta o modelo a se concentrar em exemplos mais informativos e desafiadores, aprimorando assim sua capacidade de raciocínio. Avaliamos nossa abordagem nos benchmarks GSM8K e MATH. Os resultados empíricos mostram que, enquanto o método básico não apresenta praticamente nenhuma melhoria (0%) no MATH, o EAST alcança um ganho de aproximadamente 1% em relação ao modelo base. No GSM8K, o EAST obtém um aumento adicional de 1-2% no desempenho em comparação com o método básico.
O recente surgimento de Grandes Modelos de Visão e Linguagem (VLMs) resultou em uma variedade de benchmarks diferentes para avaliar tais modelos. Apesar disso, observamos que a maioria dos métodos de avaliação existentes sofre com o fato de que eles exigem que o modelo escolha entre respostas pré-determinadas, sacrificando a abertura, ou avaliam as respostas usando um modelo juiz, resultando em uma avaliação subjetiva e pouco confiável. Além disso, observamos uma falta de benchmarks para VLMs na língua coreana, que são necessários como uma métrica separada dos benchmarks mais comuns em inglês, já que o desempenho de modelos generativos de linguagem pode variar significativamente com base no idioma utilizado. Portanto, apresentamos o KOFFVQA, um benchmark de resposta a perguntas visuais de forma livre e de propósito geral na língua coreana para a avaliação de VLMs. Nosso benchmark consiste em 275 perguntas cuidadosamente elaboradas, cada uma acompanhada de uma imagem e critérios de avaliação que cobrem 10 aspectos diferentes do desempenho de VLMs. Os critérios de avaliação eliminam o problema da falta de confiabilidade, permitindo que o modelo juiz avalie cada resposta com base em um conjunto de regras pré-determinadas. Ao definir os critérios de avaliação de maneira objetiva, até mesmo um pequeno modelo de código aberto pode ser usado para avaliar modelos em nosso benchmark de forma confiável. Além de avaliar um grande número de VLMs existentes em nosso benchmark, também verificamos experimentalmente que nosso método de usar critérios de avaliação pré-existentes é muito mais confiável do que os métodos atuais. Nosso código de avaliação está disponível em https://github.com/maum-ai/KOFFVQA.
A otimização evolutiva multiobjetivo (EMO, na sigla em inglês) tem feito avanços significativos nas últimas duas décadas. No entanto, à medida que a escala e a complexidade dos problemas aumentam, os algoritmos tradicionais de EMO enfrentam limitações substanciais de desempenho devido à insuficiência de paralelismo e escalabilidade. Embora a maior parte do trabalho tenha se concentrado no design de algoritmos para enfrentar esses desafios, pouca atenção tem sido dada à aceleração por hardware, deixando uma lacuna clara entre os algoritmos de EMO e os dispositivos de computação avançados, como GPUs. Para preencher essa lacuna, propomos paralelizar algoritmos de EMO em GPUs por meio da metodologia de tensorização. Ao empregar a tensorização, as estruturas de dados e operações dos algoritmos de EMO são transformadas em representações concisas de tensores, o que permite automaticamente a utilização da computação em GPU. Demonstramos a eficácia de nossa abordagem aplicando-a a três algoritmos representativos de EMO: NSGA-III, MOEA/D e HypE. Para avaliar de forma abrangente nossa metodologia, introduzimos um benchmark de controle de robôs multiobjetivo utilizando um motor de física acelerado por GPU. Nossos experimentos mostram que os algoritmos de EMO tensorizados alcançam acelerações de até 1113x em comparação com suas versões baseadas em CPU, mantendo a qualidade das soluções e escalando efetivamente o tamanho da população para centenas de milhares. Além disso, os algoritmos de EMO tensorizados lidam eficientemente com tarefas complexas de controle de robôs multiobjetivo, produzindo soluções de alta qualidade com comportamentos diversos. Os códigos-fonte estão disponíveis em https://github.com/EMI-Group/evomo.
Modelos de linguagem grandes pré-treinados para vídeo (Video LLMs) exibem capacidades de raciocínio notáveis, mas a adaptação desses modelos para novas tarefas que envolvem modalidades ou tipos de dados adicionais (por exemplo, áudio ou informações 3D) continua sendo um desafio. Neste artigo, apresentamos o PAVE, uma estrutura flexível para adaptar Video LLMs pré-treinados a tarefas subsequentes com sinais de canal lateral, como áudio, pistas 3D ou vídeos multiview. O PAVE introduz adaptadores leves, chamados de "patches", que adicionam um pequeno número de parâmetros e operações a um modelo base sem modificar sua arquitetura ou pesos pré-treinados. Dessa forma, o PAVE pode adaptar efetivamente o modelo base pré-treinado para suportar diversas tarefas subsequentes, incluindo questionamento áudio-visual, raciocínio 3D, reconhecimento de vídeo multiview e compreensão de vídeo de alta taxa de quadros. Nessas tarefas, o PAVE melhora significativamente o desempenho do modelo base, superando modelos específicos de última geração enquanto incorre em um custo mínimo de ~0,1% de FLOPs e parâmetros adicionais. Além disso, o PAVE suporta aprendizado multitarefa e generaliza bem em diferentes Video LLMs. Nosso código está disponível em https://github.com/dragonlzm/PAVE.
Os métodos de Fine-Tuning Eficiente em Parâmetros (PEFT, na sigla em inglês) ganharam recentemente popularidade significativa graças à ampla disponibilidade de modelos pré-treinados em grande escala. Esses métodos permitem uma rápida adaptação a tarefas subsequentes com um custo computacional mínimo. No entanto, métodos populares de fine-tuning, como o LoRA, apresentam robustez limitada quando se trata de escolhas de hiperparâmetros ou regimes de treinamento prolongados, impedindo um desempenho ideal imediato. Em contraste, abordagens limitadas, como o ETHER, oferecem maior robustez, mas estão restritas a adaptações de rank extremamente baixo e transformações de força fixa, reduzindo seu poder expressivo de adaptação. Neste trabalho, propomos a Adaptação de Baixo Rank Desacoplada (DeLoRA), um novo método de fine-tuning que normaliza e dimensiona matrizes de baixo rank aprendíveis. Ao limitar a distância da transformação, o DeLoRA efetivamente desacopla o aprendizado angular da força de adaptação, aumentando a robustez sem comprometer o desempenho. Por meio de avaliações em geração de imagens orientada por assunto, compreensão de linguagem natural e ajuste por instruções, mostramos que o DeLoRA iguala ou supera o desempenho de métodos PEFT concorrentes, ao mesmo tempo em que exibe maior robustez. O código está disponível em https://github.com/ExplainableML/DeLoRA.
Os gestos co-verbais desempenham um papel vital na comunicação não verbal. Neste artigo, introduzimos um novo framework para a compreensão de gestos co-verbais em ambientes naturais. Especificamente, propomos três novas tarefas e benchmarks para avaliar a capacidade de um modelo de compreender as associações entre gestos, texto e fala: (i) recuperação baseada em gestos, (ii) identificação de palavras gesticuladas e (iii) detecção de falante ativo usando gestos. Apresentamos uma nova abordagem que aprende uma representação tri-modal de fala-texto-vídeo-gesto para resolver essas tarefas. Ao aproveitar uma combinação de perda contrastiva global de frases e perda de acoplamento local de gesto-palavra, demonstramos que uma representação robusta de gestos pode ser aprendida de forma fracamente supervisionada a partir de vídeos em ambientes naturais. Nossas representações aprendidas superam métodos anteriores, incluindo grandes modelos de visão e linguagem (VLMs), em todas as três tarefas. Uma análise mais aprofundada revela que as modalidades de fala e texto capturam sinais distintos relacionados a gestos, destacando as vantagens de aprender um espaço de incorporação tri-modal compartilhado. O conjunto de dados, o modelo e o código estão disponíveis em: https://www.robots.ox.ac.uk/~vgg/research/jegal