Artigos de pesquisa em IA selecionados diariamente com traduções
A otimização durante a inferência dimensiona a computação para derivar etapas de raciocínio deliberadas visando um desempenho eficaz. Embora estratégias anteriores baseadas em busca abordem a miopia da geração autorregressiva, o vasto espaço de busca resulta em exploração excessiva e exploração insuficiente. Para alcançar um equilíbrio eficiente e derivar a etapa ótima, estruturamos a estratégia de decodificação como amostragem com previsão, aproveitando etapas futuras simuladas para obter uma estimativa globalmente ótima da etapa. Com base nisso, propomos uma nova estratégia de decodificação, denominada phi-Decoding. Para fornecer uma estimativa precisa e expressiva do valor da etapa, o phi-Decoding aproxima duas distribuições por meio de previsão e agrupamento. Ao amostrar a partir da distribuição conjunta, as etapas ótimas podem ser selecionadas para exploração. Para suportar a alocação adaptativa de computação, propomos estratégias de poda em largura e em profundidade, oferecendo uma solução leve para alcançar eficiência na inferência. Experimentos extensivos em sete benchmarks mostram que o phi-Decoding supera as linhas de base fortes tanto em desempenho quanto em eficiência. Análises adicionais demonstram sua generalização em vários LLMs e escalabilidade em uma ampla gama de orçamentos computacionais. O código será liberado em https://github.com/xufangzhi/phi-Decoding, e o pacote PyPI de código aberto estará disponível em breve.
Apesar do sucesso recente dos modelos contrastivos de imagem-texto, como CLIP e SigLIP, esses modelos frequentemente enfrentam dificuldades em tarefas centradas na visão que exigem compreensão de imagem de alta fidelidade, como contagem, estimativa de profundidade e reconhecimento de objetos em nível detalhado. Esses modelos, ao realizarem alinhamento de linguagem, tendem a priorizar semântica de alto nível em detrimento da compreensão visual, enfraquecendo sua capacidade de entender imagens. Por outro lado, modelos focados em visão são excelentes no processamento de informações visuais, mas lutam para compreender linguagem, limitando sua flexibilidade para tarefas orientadas por linguagem. Neste trabalho, apresentamos o TULIP, uma substituição de código aberto e direta para modelos existentes do tipo CLIP. Nosso método aproveita a ampliação de dados generativa, o aprimoramento do aprendizado contrastivo imagem-imagem e texto-texto, e a regularização por reconstrução de imagem/texto para aprender características visuais detalhadas enquanto preserva o alinhamento semântico global. Nossa abordagem, escalando para mais de 1 bilhão de parâmetros, supera os modelos state-of-the-art (SOTA) existentes em vários benchmarks, estabelecendo um novo desempenho SOTA em zero-shot no ImageNet-1K, oferecendo uma melhoria de até 2 vezes sobre o SigLIP no RxRx1 em sondagem linear para classificação few-shot, e aprimorando modelos de visão-linguagem, alcançando pontuações mais de 3 vezes superiores ao SigLIP no MMVP. Nosso código/checkpoints estão disponíveis em https://tulip-berkeley.github.io.
Malhas triangulares desempenham um papel crucial em aplicações 3D para manipulação e renderização eficientes. Embora métodos auto-regressivos gerem malhas estruturadas ao prever tokens discretos de vértices, eles frequentemente são limitados por contagens reduzidas de faces e incompletude das malhas. Para enfrentar esses desafios, propomos o DeepMesh, um framework que otimiza a geração de malhas por meio de duas inovações principais: (1) uma estratégia eficiente de pré-treinamento que incorpora um novo algoritmo de tokenização, juntamente com melhorias na curadoria e processamento de dados, e (2) a introdução de Aprendizado por Reforço (RL) na geração de malhas 3D para alinhar as preferências humanas via Otimização Direta de Preferências (DPO). Projetamos um padrão de pontuação que combina avaliação humana com métricas 3D para coletar pares de preferências para o DPO, garantindo tanto apelo visual quanto precisão geométrica. Condicionado em nuvens de pontos e imagens, o DeepMesh gera malhas com detalhes intrincados e topologia precisa, superando métodos state-of-the-art tanto em precisão quanto em qualidade. Página do projeto: https://zhaorw02.github.io/DeepMesh/
Modelos de base treinados em grandes volumes de dados têm demonstrado capacidades impressionantes de raciocínio e geração nas áreas de texto, imagens, áudio e vídeo. Nosso objetivo na Roblox é construir um modelo de base desse tipo para inteligência 3D, um modelo que possa auxiliar desenvolvedores na produção de todos os aspectos de uma experiência no Roblox, desde a geração de objetos e cenas 3D até a rigging de personagens para animação e a criação de scripts programáticos que descrevem comportamentos de objetos. Discutimos três requisitos-chave de design para um modelo de base 3D e, em seguida, apresentamos nosso primeiro passo em direção à construção desse modelo. Esperamos que formas geométricas 3D sejam um tipo de dado central e descrevemos nossa solução para tokenização de formas 3D. Mostramos como nosso esquema de tokenização pode ser aplicado em tarefas como geração de texto para forma, geração de forma para texto e geração de texto para cena. Demonstramos como essas aplicações podem colaborar com modelos de linguagem de grande escala (LLMs) existentes para realizar análise e raciocínio de cenas. Concluímos com uma discussão que delineia nosso caminho para a construção de um modelo de base totalmente unificado para inteligência 3D.
A construção do Grafo de Conhecimento Generalizado (GKG), incluindo grafo de conhecimento, grafo de conhecimento de eventos e grafo de conhecimento de senso comum, é fundamental para diversas tarefas de processamento de linguagem natural. Estudos atuais geralmente constroem esses tipos de grafo separadamente, negligenciando insights holísticos e uma potencial unificação que poderia ser benéfica em termos de recursos computacionais e perspectivas de uso. No entanto, um desafio chave no desenvolvimento de uma estrutura unificada para o GKG são os obstáculos decorrentes das diferenças específicas de cada tarefa. Neste estudo, propomos uma estrutura unificada para a construção de grafos de conhecimento generalizados para abordar esse desafio. Primeiro, coletamos dados de 15 subtarefas em 29 conjuntos de dados abrangendo os três tipos de grafos, categorizando-os em dados in-sample, counter-task e fora da distribuição (OOD). Em seguida, propomos uma estrutura de ajuste fino de aprendizado curricular em três estágios, injetando iterativamente conhecimento dos três tipos de grafos em Modelos de Linguagem de Grande Escala. Experimentos extensivos mostram que nosso modelo proposto melhora a construção de todos os três tipos de grafos em dados in-domain, OOD e counter-task.
A qualidade temporal é um aspecto crítico da geração de vídeo, pois garante movimento consistente e dinâmicas realistas entre os quadros. No entanto, alcançar alta coerência e diversidade temporal continua sendo um desafio. Neste trabalho, exploramos pela primeira vez a ampliação temporal na geração de vídeo e introduzimos o FluxFlow para investigação inicial, uma estratégia projetada para aprimorar a qualidade temporal. Operando no nível dos dados, o FluxFlow aplica perturbações temporais controladas sem exigir modificações arquitetônicas. Experimentos extensivos nos benchmarks UCF-101 e VBench demonstram que o FluxFlow melhora significativamente a coerência e a diversidade temporal em vários modelos de geração de vídeo, incluindo arquiteturas baseadas em U-Net, DiT e AR, enquanto preserva a fidelidade espacial. Esses resultados destacam o potencial da ampliação temporal como uma abordagem simples, porém eficaz, para avançar a qualidade da geração de vídeo.
Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades promissoras na resolução de tarefas de raciocínio matemático, utilizando dados de Cadeia de Pensamento (CoT) como um componente vital para orientar a geração de respostas. Os paradigmas atuais geralmente geram CoT e respostas diretamente para um problema dado, divergindo, em certa medida, das estratégias humanas de resolução de problemas. Os seres humanos frequentemente resolvem problemas ao recordar casos análogos e aproveitar suas soluções para raciocinar sobre a tarefa atual. Inspirados por esse processo cognitivo, propomos o MetaLadder, uma nova estrutura que explicitamente solicita que os LLMs recordem e reflitam sobre meta-problemas, ou seja, problemas estrutural ou semanticamente análogos, juntamente com suas soluções CoT, antes de abordar o problema alvo. Além disso, introduzimos um mecanismo de reformulação de problemas para aprimorar a compreensão do modelo sobre o problema alvo, regenerando a questão original, o que melhora ainda mais a precisão do raciocínio. Assim, o modelo pode alcançar a transferência de raciocínio a partir de problemas análogos, imitando a capacidade humana de "aprender com exemplos" e de generalização. Experimentos extensivos em benchmarks matemáticos demonstram que o nosso MetaLadder aumenta significativamente a precisão na resolução de problemas pelos LLMs, superando amplamente os métodos baseados em CoT padrão (ganho de 10,3% na precisão) e outros métodos. Nosso código e dados foram disponibilizados em https://github.com/LHL3341/MetaLadder.
O raciocínio visual é central para a cognição humana, permitindo que os indivíduos interpretem e compreendam abstratamente o seu ambiente. Embora os recentes Modelos de Linguagem Multimodal de Grande Escala (MLLMs) tenham demonstrado desempenho impressionante em tarefas de linguagem e visão-linguagem, os benchmarks existentes medem principalmente habilidades baseadas em reconhecimento e avaliam de forma inadequada as verdadeiras capacidades de raciocínio visual. Para preencher essa lacuna crítica, introduzimos o VERIFY, um benchmark explicitamente projetado para isolar e avaliar rigorosamente as capacidades de raciocínio visual dos MLLMs mais avançados. O VERIFY obriga os modelos a raciocinar principalmente a partir de informações visuais, fornecendo um contexto textual mínimo para reduzir a dependência de conhecimento específico de domínio e vieses linguísticos. Cada problema é acompanhado por um caminho de raciocínio anotado por humanos, tornando-o o primeiro a fornecer uma avaliação detalhada dos processos de tomada de decisão dos modelos. Além disso, propomos novas métricas que avaliam a fidelidade do raciocínio visual além da mera precisão, destacando desequilíbrios críticos nos padrões de raciocínio dos modelos atuais. Nossa avaliação abrangente dos principais MLLMs revela limitações significativas, ressaltando a necessidade de uma abordagem equilibrada e holística tanto para a percepção quanto para o raciocínio. Para mais informações e testes, visite nossa página do projeto (https://verify-eqh.pages.dev/).
Os rápidos avanços na tecnologia generativa emergiram como uma espada de dois gumes. Embora ofereçam ferramentas poderosas que aumentam a conveniência, também apresentam preocupações sociais significativas. Como defensores, os métodos atuais de detecção de imagens sintéticas frequentemente carecem de interpretabilidade textual no nível de artefatos e estão excessivamente focados na detecção de manipulação de imagens, e os conjuntos de dados atuais geralmente sofrem com geradores desatualizados e falta de anotações detalhadas. Neste artigo, apresentamos o SynthScars, um conjunto de dados de alta qualidade e diversificado, composto por 12.236 imagens totalmente sintéticas com anotações de especialistas humanos. Ele apresenta 4 tipos distintos de conteúdo de imagem, 3 categorias de artefatos e anotações detalhadas que cobrem segmentação em nível de pixel, explicações textuais detalhadas e rótulos de categorias de artefatos. Além disso, propomos o LEGION (LEarning to Ground and explain for Synthetic Image detectiON), um framework de análise de falsificação de imagens baseado em modelos de linguagem multimodal (MLLM) que integra detecção de artefatos, segmentação e explicação. Com base nessa capacidade, exploramos ainda o LEGION como um controlador, integrando-o em pipelines de refinamento de imagens para orientar a geração de imagens de maior qualidade e mais realistas. Experimentos extensivos mostram que o LEGION supera os métodos existentes em vários benchmarks, ultrapassando particularmente o segundo melhor especialista tradicional no SynthScars em 3,31% no mIoU e 7,75% no F1 score. Além disso, as imagens refinadas geradas sob sua orientação exibem um alinhamento mais forte com as preferências humanas. O código, o modelo e o conjunto de dados serão disponibilizados.
Os modelos de difusão têm demonstrado desempenho notável na síntese de imagens, mas exigem recursos computacionais e de memória extensivos para treinamento, ajuste fino e inferência. Embora técnicas avançadas de quantização tenham reduzido com sucesso o uso de memória para inferência, o treinamento e o ajuste fino desses modelos quantizados ainda exigem grande quantidade de memória, possivelmente devido à desquantização para o cálculo preciso de gradientes e/ou à retropropagação para algoritmos baseados em gradientes. No entanto, o ajuste fino eficiente em termos de memória é particularmente desejável para aplicações como personalização, que muitas vezes precisam ser executadas em dispositivos de borda, como smartphones, com dados privados. Neste trabalho, abordamos esse desafio quantizando um modelo de difusão com personalização via Inversão Textual e utilizando uma otimização de ordem zero nos tokens de personalização sem desquantização, de modo que não seja necessário armazenar gradientes e ativações para a retropropagação, que consome uma quantidade considerável de memória. Como a estimativa de gradiente usando otimização de ordem zero é bastante ruidosa para uma única imagem ou poucas imagens na personalização, propomos reduzir o ruído do gradiente estimado projetando-o em um subespaço construído com o histórico passado dos tokens, denominado Subespaço de Gradiente. Além disso, investigamos a influência da incorporação de texto na geração de imagens, levando à nossa proposta de amostragem de passos de tempo, denominada Amostragem Parcial Uniforme de Passos de Tempo, para amostragem com passos de tempo de difusão eficazes. Nosso método alcança desempenho comparável aos métodos anteriores em pontuações de alinhamento de imagem e texto para personalizar o Stable Diffusion com apenas passagens diretas, enquanto reduz a demanda de memória de treinamento em até 8,2 vezes.
A pesquisa atual sobre o paradigma Decompor-Então-Verificar para avaliar a factualidade de textos longos geralmente trata a decomposição e a verificação de forma isolada, negligenciando suas interações e possíveis desalinhamentos. Descobrimos que as políticas de decomposição existentes, tipicamente demonstrações manuais, não se alinham bem com os verificadores subsequentes em termos de atomicidade -- uma nova métrica que quantifica a densidade de informação -- levando a resultados de verificação subótimos. Formulamos a busca pela política de decomposição ideal para uma verificação ótima como um problema de otimização bilevel. Para aproximar uma solução para esse problema fortemente NP-difícil, propomos a decomposição dinâmica, um framework de aprendizado por reforço que aproveita o feedback do verificador para aprender uma política de decomposição dinâmica de afirmações para a atomicidade preferida pelo verificador. Os resultados experimentais mostram que a decomposição dinâmica supera as políticas de decomposição existentes, melhorando a confiança da verificação em 0,07 e a precisão em 0,12 (em uma escala de 0-1), em média, em diferentes verificadores, conjuntos de dados e atomicidades das afirmações de entrada.
O desenvolvimento de agentes de IA para manipular autonomamente interfaces gráficas de usuário é uma tarefa desafiadora e de longa duração. Avanços recentes na lei de escalabilidade de dados nos inspiram a treinar agentes de uso de computador com um conjunto de instruções em escala, mas o uso de clonagem de comportamento para treinar agentes ainda requer uma quantidade imensa de trajetórias de alta qualidade. Para atender à necessidade de escalabilidade, projetamos o STEVE, um pipeline de verificação de etapas para o treinamento de agentes de uso de computador. Primeiro, estabelecemos um grande conjunto de instruções para agentes de uso de computador e coletamos dados de trajetória com alguns agentes subótimos. O GPT-4o é usado para verificar a correção de cada etapa nas trajetórias com base nas telas antes e após a execução da ação, atribuindo a cada etapa um rótulo binário. Por fim, adotamos a Otimização de Kahneman e Tversky para otimizar o agente a partir dos rótulos binários por etapa. Experimentos extensivos demonstram que nosso agente supera o ajuste fino supervisionado ao aproveitar tanto ações positivas quanto negativas dentro de uma trajetória. Além disso, o STEVE nos permite treinar um modelo de visão e linguagem de 7B como um agente de uso de computador, alcançando desempenho líder no desafiador ambiente de desktop ao vivo WinAgentArena com grande eficiência e custo reduzido. Código e dados: https://github.com/FanbinLu/STEVE.
Agentes de modelos de linguagem de grande escala (LLM) precisam realizar interações multi-turn em tarefas do mundo real. No entanto, os algoritmos existentes de RL (Reinforcement Learning) multi-turn para otimizar agentes LLM falham em realizar uma atribuição de crédito eficaz ao longo de múltiplos turnos, ao mesmo tempo em que aproveitam as capacidades de generalização dos LLMs, e ainda não está claro como desenvolver tais algoritmos. Para estudar isso, primeiro introduzimos um novo benchmark, ColBench, onde um agente LLM interage com um colaborador humano ao longo de múltiplos turnos para resolver tarefas realistas em programação de backend e design de frontend. Com base nesse benchmark, propomos um novo algoritmo de RL, SWEET-RL (RL com Avaliação Passo a Passo a partir de informações de treinamento), que utiliza um objetivo de otimização cuidadosamente projetado para treinar um modelo crítico com acesso a informações adicionais do tempo de treinamento. O crítico fornece recompensas em nível de passo para melhorar o modelo de política. Nossos experimentos demonstram que o SWEET-RL alcança uma melhoria absoluta de 6% nas taxas de sucesso e vitória no ColBench em comparação com outros algoritmos de RL multi-turn state-of-the-art, permitindo que o Llama-3.1-8B iguale ou supere o desempenho do GPT4-o na criação colaborativa de conteúdo realista.
Os avanços recentes no pré-treinamento de LLMs têm apresentado janelas de contexto cada vez mais amplas para processar sequências mais longas. No entanto, nosso estudo piloto revela que modelos pré-treinados com janelas de contexto mais curtas consistentemente superam suas contrapartes de contexto longo sob um orçamento fixo de tokens. Essa descoberta nos motiva a explorar uma estratégia ideal de escalonamento de janelas de contexto para equilibrar melhor a capacidade de contexto longo com a eficiência do pré-treinamento. Para isso, propomos o SkyLadder, uma abordagem simples, porém eficaz, que implementa uma transição de janela de contexto curta para longa. O SkyLadder mantém um forte desempenho em benchmarks padrão, ao mesmo tempo em que iguala ou supera os resultados de baseline em tarefas de contexto longo. Por meio de extensos experimentos, pré-treinamos modelos de 1B parâmetros (até 32K de contexto) e modelos de 3B parâmetros (8K de contexto) em 100B de tokens, demonstrando que o SkyLadder proporciona ganhos consistentes de até 3,7% em benchmarks comuns, enquanto alcança velocidades de treinamento até 22% mais rápidas em comparação com as baselines. O código está disponível em https://github.com/sail-sg/SkyLadder.
Apresentamos o MusicInfuser, uma abordagem para gerar vídeos de dança de alta qualidade que estão sincronizados com uma faixa musical especificada. Em vez de tentar projetar e treinar um novo modelo multimodal de áudio-vídeo, mostramos como os modelos existentes de difusão de vídeo podem ser adaptados para se alinhar com entradas musicais, introduzindo uma atenção cruzada leve entre música e vídeo e um adaptador de baixo rank. Diferente de trabalhos anteriores que exigem dados de captura de movimento, nossa abordagem realiza ajustes finos apenas em vídeos de dança. O MusicInfuser alcança uma geração de vídeo impulsionada por música de alta qualidade, preservando a flexibilidade e as capacidades generativas dos modelos subjacentes. Introduzimos um framework de avaliação utilizando Video-LLMs para avaliar múltiplas dimensões da qualidade da geração de dança. A página do projeto e o código estão disponíveis em https://susunghong.github.io/MusicInfuser.
A reconstrução decomposicional de cenas 3D, com formas completas e texturas detalhadas de todos os objetos presentes, é intrigante para aplicações subsequentes, mas permanece desafiadora, especialmente com vistas esparsas como entrada. Abordagens recentes incorporam regularização semântica ou geométrica para lidar com esse problema, mas sofrem degradação significativa em áreas subrestritas e falham em recuperar regiões ocluídas. Argumentamos que a chave para resolver esse problema está em suplementar as informações ausentes nessas áreas. Para isso, propomos o DP-Recon, que emprega priors de difusão na forma de Amostragem por Destilação de Pontuação (SDS) para otimizar a representação neural de cada objeto individual sob novas vistas. Isso fornece informações adicionais para as áreas subrestritas, mas a incorporação direta do prior de difusão levanta potenciais conflitos entre a reconstrução e a orientação generativa. Portanto, introduzimos ainda uma abordagem guiada por visibilidade para ajustar dinamicamente os pesos da perda SDS por pixel. Juntos, esses componentes aprimoram tanto a recuperação da geometria quanto da aparência, mantendo-se fiéis às imagens de entrada. Experimentos extensivos em Replica e ScanNet++ demonstram que nosso método supera significativamente os métodos SOTA. Notavelmente, ele alcança uma melhor reconstrução de objetos com 10 vistas do que as linhas de base com 100 vistas. Nosso método permite edição baseada em texto para geometria e aparência através da otimização SDS e produz malhas de objetos decompostas com mapas UV detalhados que suportam edição de efeitos visuais (VFX) fotorrealistas. A página do projeto está disponível em https://dp-recon.github.io/.
Os avanços recentes em Modelos Multimodais de Grande Escala (LMMs) concentram-se principalmente na compreensão de vídeos offline. Em contraste, a compreensão de vídeos em streaming apresenta grandes desafios para os modelos atuais devido às suas características sensíveis ao tempo, omnimodais e interativas. Neste trabalho, buscamos estender a compreensão de vídeos em streaming a partir de uma nova perspectiva e propomos uma nova tarefa denominada Feedback de Instrução Visual, na qual os modelos devem estar cientes dos conteúdos visuais e aprender a extrair instruções deles. Por exemplo, quando os usuários acenam para os agentes, estes devem reconhecer o gesto e iniciar conversas com informações de boas-vindas. Assim, seguir instruções na modalidade visual aprimora significativamente as interações entre usuário e agente. Para facilitar a pesquisa, definimos sete subtarefas-chave altamente relevantes para a modalidade visual e coletamos o conjunto de dados ViSpeak-Instruct para treinamento e o ViSpeak-Bench para avaliação. Além disso, propomos o modelo ViSpeak, que é um LMM de compreensão de vídeos em streaming de última geração com desempenho comparável ao GPT-4o em vários benchmarks de compreensão de vídeos em streaming. Após o ajuste fino em nosso conjunto de dados ViSpeak-Instruct, o ViSpeak é equipado com uma capacidade básica de feedback de instrução visual, servindo como uma base sólida para pesquisas futuras.
A engenharia de recursos automatizada desempenha um papel crucial na melhoria do desempenho de modelos preditivos para tarefas de aprendizado tabular. Os métodos tradicionais de engenharia de recursos automatizados são limitados por sua dependência de transformações predefinidas dentro de espaços de busca fixos e projetados manualmente, muitas vezes negligenciando o conhecimento do domínio. Avanços recentes utilizando Modelos de Linguagem de Grande Escala (LLMs) permitiram a integração do conhecimento do domínio no processo de engenharia de recursos. No entanto, as abordagens existentes baseadas em LLMs utilizam prompts diretos ou dependem exclusivamente de pontuações de validação para seleção de recursos, falhando em aproveitar insights de experimentos anteriores de descoberta de recursos ou estabelecer raciocínios significativos entre a geração de recursos e o desempenho orientado por dados. Para enfrentar esses desafios, propomos o LLM-FE, um novo framework que combina busca evolucionária com o conhecimento do domínio e as capacidades de raciocínio dos LLMs para descobrir automaticamente recursos eficazes para tarefas de aprendizado tabular. O LLM-FE formula a engenharia de recursos como um problema de busca de programas, onde os LLMs propõem iterativamente novos programas de transformação de recursos, e o feedback orientado por dados guia o processo de busca. Nossos resultados demonstram que o LLM-FE supera consistentemente as abordagens state-of-the-art, melhorando significativamente o desempenho de modelos de predição tabular em diversos benchmarks de classificação e regressão.
A geração de retratos falantes baseada em áudio e uma única imagem desempenha um papel crucial na realidade virtual, criação de humanos digitais e produção cinematográfica. As abordagens existentes são geralmente categorizadas em métodos baseados em pontos-chave e métodos baseados em imagem. Os métodos baseados em pontos-chave preservam efetivamente a identidade do personagem, mas lutam para capturar detalhes faciais finos devido à limitação de pontos fixos do Modelo Morfável 3D. Além disso, as redes generativas tradicionais enfrentam desafios em estabelecer causalidade entre áudio e pontos-chave em conjuntos de dados limitados, resultando em baixa diversidade de poses. Em contraste, as abordagens baseadas em imagem produzem retratos de alta qualidade com diversos detalhes usando a rede de difusão, mas incorrem em distorção de identidade e custos computacionais elevados. Neste trabalho, propomos o KDTalker, o primeiro framework a combinar pontos-chave 3D implícitos não supervisionados com um modelo de difusão espaço-temporal. Aproveitando os pontos-chave 3D implícitos não supervisionados, o KDTalker adapta as densidades de informação facial, permitindo que o processo de difusão modele diversas poses de cabeça e capture detalhes faciais finos de forma flexível. O mecanismo de atenção espaço-temporal projetado sob medida garante sincronização labial precisa, produzindo animações temporalmente consistentes e de alta qualidade, ao mesmo tempo em que melhora a eficiência computacional. Os resultados experimentais demonstram que o KDTalker alcança desempenho de ponta em termos de precisão de sincronização labial, diversidade de poses de cabeça e eficiência de execução. Nossos códigos estão disponíveis em https://github.com/chaolongy/KDTalker.
Apresentamos o ELTEX (Efficient LLM Token Extraction), um framework orientado por domínio para a geração de dados sintéticos de treinamento de alta qualidade em domínios especializados. Embora os Modelos de Linguagem de Grande Escala (LLMs) tenham demonstrado capacidades gerais impressionantes, seu desempenho em domínios especializados, como cibersegurança, permanece limitado pela escassez de dados de treinamento específicos do domínio. O ELTEX aborda esse desafio ao integrar sistematicamente a extração explícita de indicadores de domínio com prompts dinâmicos para preservar o conhecimento crítico do domínio ao longo do processo de geração. Demonstramos a eficácia do ELTEX no contexto de detecção de ciberataques relacionados a blockchain, onde ajustamos o Gemma-2B usando várias combinações de dados reais e gerados pelo ELTEX. Nossos resultados mostram que o modelo aprimorado pelo ELTEX alcança um desempenho competitivo com o GPT-4 tanto em métricas de classificação padrão quanto em calibração de incerteza, enquanto requer significativamente menos recursos computacionais. Disponibilizamos um conjunto de dados sintéticos curados de textos de mídia social para detecção de ciberataques em blockchain. Nosso trabalho demonstra que a geração de dados sintéticos orientada por domínio pode efetivamente preencher a lacuna de desempenho entre modelos eficientes em recursos e arquiteturas maiores em domínios especializados.
Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades aprimoradas de raciocínio, evoluindo de técnicas como o Chain-of-Thought (CoT) para soluções avançadas e orientadas a produtos, como o OpenAI o1. Durante nossa reimplementação desse modelo, observamos que, em tarefas multimodais que exigem entrada visual (por exemplo, problemas de geometria), os Modelos Multimodais de Linguagem de Grande Escala (MLLMs) têm dificuldade em manter o foco nas informações visuais. Em outras palavras, os MLLMs sofrem um declínio gradual na atenção às informações visuais à medida que o raciocínio progride, resultando em saídas excessivamente dependentes de texto. Para investigar isso, realizamos a ablação de entradas de imagem durante raciocínios de cadeia longa. Especificamente, truncamos o processo de raciocínio no meio e, em seguida, completamos o raciocínio novamente com a imagem de entrada removida. Observamos uma queda de apenas ~2% na precisão no subconjunto test-hard do MathVista, revelando que as saídas textuais do modelo dominam o processo de raciocínio subsequente. Motivados por isso, propomos o Take-along Visual Conditioning (TVC), uma estratégia que desloca a entrada de imagem para estágios críticos do raciocínio e comprime tokens visuais redundantes por meio de poda dinâmica. Essa metodologia ajuda o modelo a manter a atenção aos componentes visuais ao longo do raciocínio. Nossa abordagem alcança desempenho de ponta em média em cinco benchmarks de raciocínio matemático (+3,4% em relação ao estado da arte anterior), demonstrando a eficácia do TVC na melhoria de sistemas de raciocínio multimodal.
A resolução de problemas científicos envolve a síntese de informações enquanto se aplica conhecimento especializado. Apresentamos o CURIE, um benchmark de Compreensão de Contexto Longo, Raciocínio e Extração de Informações Científicas, projetado para medir o potencial dos Modelos de Linguagem de Grande Escala (LLMs) na resolução de problemas científicos e na assistência a cientistas em fluxos de trabalho realistas. Este benchmark introduz dez tarefas desafiadoras, totalizando 580 pares de problemas e soluções curados por especialistas em seis disciplinas - ciência dos materiais, física da matéria condensada, computação quântica, análise geoespacial, biodiversidade e proteínas - abrangendo tanto fluxos de trabalho experimentais quanto teóricos na ciência. Avaliamos uma variedade de LLMs fechados e abertos em tarefas do CURIE, que exigem expertise de domínio, compreensão de informações contextuais longas e raciocínio em múltiplas etapas. Enquanto o Gemini Flash 2.0 e o Claude-3 demonstram uma compreensão consistentemente alta em diversos domínios, os populares GPT-4o e Command-R+ falham dramaticamente em tarefas de sequenciamento de proteínas. Com o melhor desempenho em 32%, há muito espaço para melhoria para todos os modelos. Esperamos que os insights obtidos com o CURIE possam orientar o desenvolvimento futuro dos LLMs nas ciências. O código e os dados de avaliação estão disponíveis em https://github.com/google/curie.
Em ambientes complexos de múltiplos agentes, alcançar aprendizagem eficiente e comportamentos desejáveis é um desafio significativo para sistemas de Aprendizado por Reforço Multiagente (MARL). Este trabalho explora o potencial de combinar MARL com intervenções mediadas por Modelos de Linguagem de Grande Escala (LLMs) para guiar os agentes em direção a comportamentos mais desejáveis. Especificamente, investigamos como os LLMs podem ser usados para interpretar e facilitar intervenções que moldam as trajetórias de aprendizagem de múltiplos agentes. Experimentamos com dois tipos de intervenções, denominadas controladores: um Controlador de Linguagem Natural (NL) e um Controlador Baseado em Regras (RB). O Controlador NL, que utiliza um LLM para simular intervenções semelhantes às humanas, demonstrou um impacto mais forte do que o Controlador RB. Nossos resultados indicam que os agentes se beneficiam particularmente de intervenções precoces, levando a um treinamento mais eficiente e a um desempenho superior. Ambos os tipos de intervenção superam a linha de base sem intervenções, destacando o potencial da orientação mediada por LLMs para acelerar o treinamento e aprimorar o desempenho do MARL em ambientes desafiadores.