Artigos de pesquisa em IA selecionados diariamente com traduções
Os Transformers alcançaram grande sucesso em diversas tarefas de PLN, mas continuam a apresentar lacunas significativas no raciocínio factual de múltiplos passos, especialmente quando o conhecimento do mundo real é escasso. Avanços recentes em "grokking" demonstraram que redes neurais podem transicionar de memorizar para generalizar perfeitamente uma vez que detectam padrões lógicos subjacentes - no entanto, esses estudos têm utilizado principalmente tarefas sintéticas e de pequena escala. Neste artigo, pela primeira vez, estendemos o "grokking" para dados factuais do mundo real e abordamos o desafio da escassez de dados aumentando grafos de conhecimento existentes com dados sintéticos cuidadosamente projetados, a fim de elevar a razão phi_r de fatos inferidos para fatos atômicos acima do limiar necessário para o "grokking". Surpreendentemente, descobrimos que até mesmo dados sintéticos factualmente incorretos podem fortalecer circuitos de raciocínio emergentes em vez de degradar a precisão, pois forçam o modelo a depender da estrutura relacional em vez da memorização. Quando avaliada em benchmarks de raciocínio de múltiplos saltos, nossa abordagem alcança até 95-100% de precisão no 2WikiMultiHopQA - melhorando substancialmente em relação a baselines robustas e igualando ou superando os resultados atuais de ponta. Além disso, fornecemos uma análise detalhada de como o aumento de phi_r impulsiona a formação de circuitos generalizadores dentro dos Transformers. Nossas descobertas sugerem que a ampliação de dados baseada em "grokking" pode desbloquear capacidades implícitas de raciocínio de múltiplos saltos, abrindo caminho para um raciocínio factual mais robusto e interpretável em modelos de linguagem de grande escala.
Um agente de IA de voz que se integra perfeitamente à vida diária interagiria com os humanos de forma autônoma, em tempo real e com expressividade emocional. Em vez de apenas reagir a comandos, ele ouviria, raciocinaria e responderia de maneira proativa, promovendo interações fluidas, dinâmicas e emocionalmente ressonantes. Apresentamos Voila, uma família de modelos fundamentais de voz e linguagem de grande escala que dão um passo em direção a essa visão. Voila vai além dos sistemas tradicionais em pipeline ao adotar uma nova arquitetura de ponta a ponta que permite conversas full-duplex de baixa latência, preservando nuances vocais ricas, como tom, ritmo e emoção. Ele alcança uma latência de resposta de apenas 195 milissegundos, superando o tempo médio de resposta humana. Seu Transformer hierárquico de múltiplas escalas integra as capacidades de raciocínio dos grandes modelos de linguagem (LLMs) com uma poderosa modelagem acústica, permitindo a geração de voz natural e consciente da persona — onde os usuários podem simplesmente escrever instruções em texto para definir a identidade, o tom e outras características do falante. Além disso, Voila suporta mais de um milhão de vozes pré-construídas e a personalização eficiente de novas vozes a partir de amostras de áudio breves, com duração de apenas 10 segundos. Além do diálogo falado, Voila foi projetado como um modelo unificado para uma ampla gama de aplicações baseadas em voz, incluindo reconhecimento automático de fala (ASR), conversão de texto em fala (TTS) e, com mínima adaptação, tradução de fala multilíngue. Voila é totalmente de código aberto para apoiar pesquisas abertas e acelerar o progresso em direção à próxima geração de interações homem-máquina.
A modelagem de recompensas é essencial para alinhar grandes modelos de linguagem (LLMs) com as preferências humanas, especialmente por meio do aprendizado por reforço com feedback humano (RLHF). Para fornecer sinais de recompensa precisos, um modelo de recompensa (RM) deve estimular o pensamento profundo e realizar raciocínios interpretáveis antes de atribuir uma pontuação ou um julgamento. No entanto, os RMs existentes ou produzem pontuações escalares opacas ou geram diretamente a previsão de uma resposta preferida, dificultando a integração de críticas em linguagem natural e, portanto, carecendo de interpretabilidade. Inspirados pelos avanços recentes em cadeias longas de pensamento (CoT) em tarefas que exigem raciocínio, hipotetizamos e validamos que a integração de capacidades de raciocínio na modelagem de recompensas melhora significativamente a interpretabilidade e o desempenho do RM. Neste trabalho, introduzimos uma nova classe de modelos de recompensa generativos -- Modelos de Recompensa com Raciocínio (ReasRMs) -- que formulam a modelagem de recompensas como uma tarefa de raciocínio. Propomos um pipeline de treinamento orientado para o raciocínio e treinamos uma família de ReasRMs, o RM-R1. O treinamento consiste em duas etapas principais: (1) destilação de cadeias de raciocínio de alta qualidade e (2) aprendizado por reforço com recompensas verificáveis. O RM-R1 melhora as execuções de LLMs ao gerar automaticamente traços de raciocínio ou rubricas específicas para conversas e avaliar respostas candidatas com base neles. Empiricamente, nossos modelos alcançam desempenho de ponta ou próximo ao estado da arte em modelos de recompensa generativos em diversos benchmarks abrangentes, superando modelos de código aberto muito maiores (por exemplo, Llama3.1-405B) e proprietários (por exemplo, GPT-4o) em até 13,8%. Além do desempenho final, realizamos uma análise empírica detalhada para entender os ingredientes-chave do treinamento bem-sucedido de ReasRMs. Para facilitar pesquisas futuras, disponibilizamos seis modelos ReasRM, juntamente com código e dados, em https://github.com/RM-R1-UIUC/RM-R1.
Modelos de linguagem de grande escala (LLMs) são amplamente aplicados em chatbots, geradores de código e motores de busca. Cargas de trabalho como cadeia de pensamento, raciocínio complexo e serviços de agentes aumentam significativamente o custo de inferência ao invocar o modelo repetidamente. Métodos de otimização como paralelismo, compressão e cache foram adotados para reduzir custos, mas os diversos requisitos de serviço tornam difícil selecionar o método adequado. Recentemente, motores de inferência especializados para LLMs surgiram como um componente-chave para integrar os métodos de otimização em infraestruturas orientadas a serviços. No entanto, ainda falta um estudo sistemático sobre motores de inferência. Este artigo fornece uma avaliação abrangente de 25 motores de inferência de código aberto e comerciais. Examinamos cada motor de inferência em termos de facilidade de uso, facilidade de implantação, suporte para propósitos gerais, escalabilidade e adequação para computação consciente de taxa de transferência e latência. Além disso, exploramos os objetivos de design de cada motor de inferência investigando as técnicas de otimização que ele suporta. Adicionalmente, avaliamos a maturidade do ecossistema dos motores de inferência de código aberto e lidamos com a política de desempenho e custo das soluções comerciais. Delineamos direções futuras de pesquisa que incluem suporte para serviços complexos baseados em LLMs, suporte para diversos hardwares e segurança aprimorada, oferecendo orientação prática para pesquisadores e desenvolvedores na seleção e projeto de motores de inferência de LLMs otimizados. Também fornecemos um repositório público para acompanhar continuamente os desenvolvimentos neste campo em rápida evolução: https://github.com/sihyeong/Awesome-LLM-Inference-Engine
Demonstramos que o Muon, a instanciação mais simples de um otimizador de segunda ordem, expande explicitamente a fronteira de Pareto em relação ao AdamW na relação entre tempo de computação e desempenho. Descobrimos que o Muon é mais eficaz do que o AdamW em manter a eficiência de dados com tamanhos de lote grandes, muito além do chamado tamanho crítico de lote, enquanto mantém a eficiência computacional, permitindo assim um treinamento mais econômico. Estudamos a combinação do Muon com a parametrização de atualização máxima (muP) para transferência eficiente de hiperparâmetros e apresentamos um algoritmo telescópico simples que leva em conta todas as fontes de erro no muP, introduzindo apenas um modesto custo adicional de recursos. Validamos nossas descobertas por meio de extensos experimentos com modelos de até quatro bilhões de parâmetros e análises de ablação na distribuição de dados e na arquitetura.
Modelos de linguagem de grande escala (LLMs) alcançaram progressos notáveis em tarefas de raciocínio complexo, mas permanecem fundamentalmente limitados por sua dependência de conhecimento interno estático e raciocínio baseado apenas em texto. A resolução de problemas do mundo real frequentemente exige raciocínio dinâmico e em múltiplas etapas, tomada de decisão adaptativa e a capacidade de interagir com ferramentas e ambientes externos. Neste trabalho, apresentamos ARTIST (Raciocínio Agêntico e Integração de Ferramentas em Transformers Autoaprimoráveis), um framework unificado que integra de forma estreita raciocínio agêntico, aprendizado por reforço e integração de ferramentas para LLMs. O ARTIST permite que os modelos decidam de forma autônoma quando, como e quais ferramentas invocar em cadeias de raciocínio de múltiplos turnos, aproveitando o aprendizado por reforço baseado em resultados para aprender estratégias robustas de uso de ferramentas e interação com o ambiente, sem exigir supervisão em nível de etapa. Experimentos extensivos em benchmarks de raciocínio matemático e chamadas de função de múltiplos turnos mostram que o ARTIST supera consistentemente os modelos de referência mais avançados, com uma melhoria absoluta de até 22% em relação aos modelos base e ganhos significativos nas tarefas mais desafiadoras. Estudos detalhados e análises de métricas revelam que o treinamento agêntico com aprendizado por reforço leva a um raciocínio mais profundo, uso mais eficaz de ferramentas e soluções de maior qualidade. Nossos resultados estabelecem o aprendizado por reforço agêntico com integração de ferramentas como uma nova e poderosa fronteira para a resolução de problemas robusta, interpretável e generalizável em LLMs.
O raciocínio matemático formal continua sendo um desafio crítico para a inteligência artificial, prejudicado pelas limitações dos benchmarks existentes em escopo e escala. Para enfrentar esse problema, apresentamos o FormalMATH, um benchmark em larga escala para o Lean4, composto por 5.560 problemas formalmente verificados, que abrangem desde desafios de olimpíadas de ensino médio até teoremas de nível universitário em diversos domínios (por exemplo, álgebra, matemática aplicada, cálculo, teoria dos números e matemática discreta). Para mitigar a ineficiência da formalização manual, introduzimos um novo pipeline de autoformalização com intervenção humana que integra: (1) modelos de linguagem de grande escala (LLMs) especializados para autoformalização de enunciados, (2) verificação semântica multi-LLM e (3) estratégias de filtragem por refutação baseadas em negação usando provadores LLM prontos para uso. Essa abordagem reduz os custos de anotação especializada, retendo 72,09% dos enunciados antes da verificação manual, ao mesmo tempo que garante fidelidade aos problemas originais em linguagem natural. Nossa avaliação dos melhores provadores de teoremas baseados em LLMs revela limitações significativas: mesmo os modelos mais fortes alcançam apenas 16,46% de taxa de sucesso sob orçamentos práticos de amostragem, exibindo um viés de domínio pronunciado (por exemplo, excelência em álgebra, mas falhas em cálculo) e uma dependência excessiva de táticas de automação simplificadas. Notavelmente, identificamos uma relação inversa contraintuitiva entre a orientação de soluções em linguagem natural e o sucesso das provas em cenários de raciocínio em cadeia de pensamento, sugerindo que o raciocínio informal escrito por humanos introduz ruído em vez de clareza em contextos de raciocínio formal. Acreditamos que o FormalMATH fornece um benchmark robusto para avaliar o raciocínio matemático formal.
Os Modelos de Recompensa Multimodal (MRMs) desempenham um papel crucial na melhoria do desempenho dos Modelos de Linguagem de Grande Escala Multimodal (MLLMs). Embora os avanços recentes tenham se concentrado principalmente em melhorar a estrutura do modelo e os dados de treinamento dos MRMs, houve uma exploração limitada da eficácia das capacidades de raciocínio de longo prazo para a modelagem de recompensas e de como ativar essas capacidades nos MRMs. Neste artigo, exploramos como o Aprendizado por Reforço (RL) pode ser usado para melhorar a modelagem de recompensas. Especificamente, reformulamos o problema de modelagem de recompensas como uma tarefa de RL baseada em regras. No entanto, observamos que a aplicação direta de algoritmos de RL existentes, como o Reinforce++, à modelagem de recompensas frequentemente leva a instabilidade no treinamento ou até mesmo ao colapso, devido às limitações inerentes desses algoritmos. Para resolver esse problema, propomos o algoritmo StableReinforce, que refina a função de perda de treinamento, a estratégia de estimativa de vantagem e o design de recompensa dos métodos de RL existentes. Esses refinamentos resultam em dinâmicas de treinamento mais estáveis e desempenho superior. Para facilitar o treinamento dos MRMs, coletamos 200 mil dados de preferência de diversos conjuntos de dados. Nosso modelo de recompensa, R1-Reward, treinado usando o algoritmo StableReinforce nesse conjunto de dados, melhora significativamente o desempenho em benchmarks de modelagem de recompensas multimodais. Em comparação com os modelos SOTA anteriores, o R1-Reward alcança uma melhoria de 8,4% no VL Reward-Bench e de 14,3% no Multimodal Reward Bench. Além disso, com mais recursos de inferência, o desempenho do R1-Reward é ainda mais aprimorado, destacando o potencial dos algoritmos de RL na otimização dos MRMs.
Apresentamos o ReplaceMe, um método generalizado de poda de profundidade sem treinamento que substitui efetivamente blocos de transformadores por uma operação linear, mantendo alto desempenho para baixas taxas de compressão. Em contraste com abordagens convencionais de poda que exigem treinamento adicional ou ajuste fino, nosso método requer apenas um pequeno conjunto de dados de calibração, utilizado para estimar uma transformação linear que aproxima os blocos podados. Esse mapeamento linear estimado pode ser integrado de forma contínua com os blocos de transformadores restantes, eliminando a necessidade de parâmetros adicionais na rede. Nossos experimentos mostram que o ReplaceMe supera consistentemente outras abordagens sem treinamento e mantém-se altamente competitivo em relação aos métodos de poda de última geração que envolvem retreinamento extensivo/ajuste fino e modificações arquiteturais. Aplicado a vários modelos de linguagem de grande escala (LLMs), o ReplaceMe alcança até 25% de poda enquanto retém aproximadamente 90% do desempenho original do modelo em benchmarks abertos — sem qualquer etapa de treinamento ou recuperação, resultando em sobrecarga computacional mínima (ver Fig.1). Disponibilizamos uma biblioteca de código aberto que implementa o ReplaceMe juntamente com várias técnicas de poda de profundidade de última geração, disponível neste repositório.
O raciocínio em cadeia de pensamento (Chain-of-Thought, CoT) em modelos de linguagem de grande escala (Large Language Models, LLMs) pode ser formalizado como um problema de variável latente, onde o modelo precisa gerar etapas intermediárias de raciocínio. Embora abordagens anteriores, como o ajuste fino iterativo baseado em recompensas (iterative reward-ranked fine-tuning, RAFT), tenham se baseado em tais formulações, elas geralmente aplicam orçamentos de inferência uniformes em todos os prompts, o que não leva em consideração a variabilidade na dificuldade e no comportamento de convergência. Este trabalho identifica o principal gargalo no treinamento de CoT como a estimativa ineficiente do gradiente estocástico devido a estratégias de amostragem estáticas. Propomos o GVM-RAFT, uma Estratégia Dinâmica de Alocação de Amostras específica para prompts, projetada para minimizar a variância do gradiente estocástico sob uma restrição de orçamento computacional. O método aloca dinamicamente recursos computacionais monitorando as taxas de aceitação de prompts e as normas do gradiente estocástico, garantindo que a variância do gradiente resultante seja minimizada. Nossa análise teórica mostra que a estratégia de amostragem dinâmica proposta leva a garantias de convergência acelerada sob condições adequadas. Experimentos em raciocínio matemático mostram que o GVM-RAFT alcança uma aceleração de 2 a 4 vezes e melhorias consideráveis na precisão em relação ao RAFT padrão. A estratégia de amostragem dinâmica proposta é geral e pode ser incorporada a outros algoritmos de aprendizado por reforço, como o GRPO, levando a melhorias semelhantes na convergência e na precisão dos testes. Nosso código está disponível em https://github.com/RLHFlow/GVM.
A interação de fala em tempo real, inteligente e natural é um componente essencial da próxima geração de interação humano-computador. Avanços recentes têm demonstrado o potencial de construir chatbots falantes inteligentes baseados em grandes modelos de linguagem (LLMs). Neste artigo, apresentamos o LLaMA-Omni 2, uma série de modelos de linguagem de fala (SpeechLMs) que variam de 0,5B a 14B parâmetros, capazes de alcançar interação de fala em tempo real de alta qualidade. O LLaMA-Omni 2 é construído sobre os modelos da série Qwen2.5, integrando um codificador de fala e um decodificador de fala em streaming autoregressivo. Apesar de ter sido treinado com apenas 200 mil amostras de diálogos de fala multi-turn, o LLaMA-Omni 2 demonstra um desempenho robusto em vários benchmarks de resposta a perguntas faladas e seguimento de instruções de fala, superando os SpeechLMs anteriores de última geração, como o GLM-4-Voice, que foi treinado com milhões de horas de dados de fala.
Abordamos um desafio fundamental no Aprendizado por Reforço a partir de Demonstrações de Interação (RLID): ruído nas demonstrações e limitações de cobertura. Embora as abordagens existentes de coleta de dados forneçam demonstrações de interação valiosas, elas frequentemente resultam em trajetórias esparsas, desconectadas e ruidosas que não capturam todo o espectro de possíveis variações e transições de habilidades. Nossa principal percepção é que, apesar das demonstrações ruidosas e esparsas, existem infinitas trajetórias fisicamente viáveis que naturalmente conectam habilidades demonstradas ou emergem de seus estados vizinhos, formando um espaço contínuo de possíveis variações e transições de habilidades. Com base nessa percepção, apresentamos duas técnicas de aumento de dados: um Grafo de Trajetórias Costuradas (STG) que descobre transições potenciais entre habilidades demonstradas, e um Campo de Transição de Estados (STF) que estabelece conexões únicas para estados arbitrários dentro da vizinhança das demonstrações. Para permitir um RLID eficaz com dados aumentados, desenvolvemos uma estratégia de Amostragem Adaptativa de Trajetórias (ATS) para geração dinâmica de currículo e um mecanismo de codificação histórica para aprendizado de habilidades dependentes de memória. Nossa abordagem possibilita a aquisição robusta de habilidades que se generaliza significativamente além das demonstrações de referência. Experimentos extensos em diversas tarefas de interação demonstram melhorias substanciais em relação aos métodos state-of-the-art em termos de estabilidade de convergência, capacidade de generalização e robustez de recuperação.
A simulação eficaz de inteligência social requer que agentes de linguagem ajustem dinamicamente a profundidade do raciocínio, uma capacidade notavelmente ausente nas abordagens atuais. Enquanto os métodos existentes ou carecem desse tipo de capacidade de raciocínio ou impõem uma cadeia de pensamento longa e uniforme em todos os cenários, resultando em uso excessivo de tokens e simulação social inadequada. Neste artigo, propomos o Aprendizado de Modo Adaptativo (AML, do inglês *Adaptive Mode Learning*), que seleciona estrategicamente entre quatro modos de pensamento (reação intuitiva → contemplação profunda) com base no contexto em tempo real. A inovação central de nosso framework, o algoritmo de Otimização de Política de Modo Adaptativo (AMPO, do inglês *Adaptive Mode Policy Optimization*), introduz três avanços principais em relação aos métodos existentes: (1) Design de modo de pensamento multigranular, (2) Troca de modo consciente do contexto durante a interação social e (3) Raciocínio eficiente em tokens por meio de processamento adaptativo à profundidade. Experimentos extensivos em tarefas de inteligência social confirmam que o AML alcança um desempenho 15,6% superior aos métodos state-of-the-art. Notavelmente, nosso método supera o GRPO em 7,0% com cadeias de raciocínio 32,8% mais curtas. Esses resultados demonstram que a seleção de modo de pensamento sensível ao contexto, conforme implementada no AMPO, permite um raciocínio adaptativo mais semelhante ao humano do que a abordagem de profundidade fixa do GRPO.
Apresentamos o Ming-Lite-Uni, um framework multimodal de código aberto que apresenta um gerador visual unificado recém-projetado e um modelo autoregressivo multimodal nativo, especialmente desenvolvido para unificar visão e linguagem. Especificamente, este projeto oferece uma implementação de código aberto do framework integrado MetaQueries e M2-omni, ao mesmo tempo em que introduz os novos tokens aprendíveis em múltiplas escalas e a estratégia de alinhamento de representação em múltiplas escalas. Ao aproveitar um MLLM fixo e um modelo de difusão aprendível, o Ming-Lite-Uni permite que modelos AR multimodais nativos realizem tanto a geração de texto para imagem quanto tarefas de edição de imagens baseadas em instruções, expandindo suas capacidades além do mero entendimento visual. Nossos resultados experimentais demonstram o forte desempenho do Ming-Lite-Uni e ilustram a natureza impressionantemente fluida de seu processo interativo. Todo o código e os pesos dos modelos são disponibilizados em código aberto para promover uma maior exploração pela comunidade. Vale destacar que este trabalho está alinhado com marcos contemporâneos da IA multimodal - como o ChatGPT-4o com geração de imagens nativa atualizado em 25 de março de 2025 - ressaltando a importância mais ampla de modelos unificados como o Ming-Lite-Uni no caminho para a AGI. O Ming-Lite-Uni está em fase alfa e em breve será aprimorado.
Devido aos desafios de coletar manualmente dados de edição precisos, os conjuntos de dados existentes são tipicamente construídos usando vários métodos automatizados, resultando em sinais de supervisão ruidosos causados pela incompatibilidade entre as instruções de edição e os pares de imagens original-editada. Esforços recentes tentam melhorar os modelos de edição por meio da geração de imagens editadas de maior qualidade, pré-treinamento em tarefas de reconhecimento ou pela introdução de modelos de visão e linguagem (VLMs), mas falham em resolver essa questão fundamental. Neste artigo, oferecemos uma solução inovadora ao construir instruções de edição mais eficazes para pares de imagens dados. Isso inclui retificar as instruções de edição para melhor alinhá-las com os pares de imagens original-editada e usar instruções de edição contrastantes para aprimorar ainda mais sua eficácia. Especificamente, descobrimos que os modelos de edição exibem atributos de geração específicos em diferentes etapas de inferência, independentemente do texto. Com base nesses atributos prévios, definimos um guia unificado para VLMs retificar as instruções de edição. No entanto, existem alguns cenários de edição desafiadores que não podem ser resolvidos apenas com instruções retificadas. Para isso, construímos ainda mais sinais de supervisão contrastantes com instruções positivas e negativas e os introduzimos no treinamento do modelo usando a função de perda tripla, facilitando assim ainda mais a eficácia da supervisão. Nosso método não requer os módulos VLM ou tarefas de pré-treinamento usados em trabalhos anteriores, oferecendo uma maneira mais direta e eficiente de fornecer melhores sinais de supervisão e fornecendo uma solução nova, simples e eficaz para a edição de imagens baseada em instruções. Os resultados em vários benchmarks demonstram que nosso método supera significativamente as abordagens existentes. Em comparação com o SOTA anterior, SmartEdit, alcançamos melhorias de 9,19% no benchmark Real-Edit com 30 vezes menos dados de treinamento e um tamanho de modelo 13 vezes menor.
Modelos de linguagem de grande escala (LLMs) têm alcançado desempenho impressionante em diversos domínios. No entanto, os recursos de hardware substanciais necessários para seu treinamento representam uma barreira significativa para eficiência e escalabilidade. Para mitigar esse desafio, técnicas de treinamento de baixa precisão têm sido amplamente adotadas, levando a avanços notáveis na eficiência do treinamento. Apesar desses ganhos, o treinamento de baixa precisão envolve vários componentes—como pesos, ativações e gradientes—cada um dos quais pode ser representado em diferentes formatos numéricos. A diversidade resultante criou um cenário fragmentado na pesquisa de treinamento de baixa precisão, dificultando que os pesquisadores obtenham uma visão unificada do campo. Esta pesquisa fornece uma revisão abrangente dos métodos existentes de treinamento de baixa precisão. Para organizar sistematicamente essas abordagens, as categorizamos em três grupos principais com base em seus formatos numéricos subjacentes, que é um fator chave que influencia a compatibilidade de hardware, eficiência computacional e facilidade de referência para os leitores. As categorias são: (1) métodos baseados em ponto fixo e inteiros, (2) métodos baseados em ponto flutuante, e (3) métodos baseados em formatos personalizados. Além disso, discutimos abordagens de treinamento com consciência de quantização, que compartilham semelhanças importantes com o treinamento de baixa precisão durante a propagação direta. Por fim, destacamos várias direções de pesquisa promissoras para avançar esse campo. Uma coleção de artigos discutidos nesta pesquisa é fornecida em https://github.com/Hao840/Awesome-Low-Precision-Training.
Compreender as relações causais entre eventos e alcançar uma ancoragem temporal refinada em vídeos continua sendo um desafio para modelos de visão e linguagem. Os métodos existentes ou comprimem os tokens de vídeo para reduzir a resolução temporal, ou tratam os vídeos como fluxos não segmentados, o que obscurece os limites refinados dos eventos e limita a modelagem de dependências causais. Propomos o TEMPURA (Temporal Event Masked Prediction and Understanding for Reasoning in Action), uma estrutura de treinamento em duas etapas que aprimora a compreensão temporal de vídeos. O TEMPURA primeiro aplica o raciocínio de previsão de eventos mascarados para reconstruir eventos ausentes e gerar explicações causais passo a passo a partir de anotações densas de eventos, inspirando-se em técnicas eficazes de preenchimento. Em seguida, o TEMPURA aprende a realizar segmentação de vídeo e legendagem densa para decompor vídeos em eventos não sobrepostos com descrições detalhadas e alinhadas por timestamp. Treinamos o TEMPURA no VER, um conjunto de dados em larga escala que criamos, composto por 1 milhão de instâncias de treinamento e 500 mil vídeos com descrições de eventos temporalmente alinhadas e etapas de raciocínio estruturadas. Experimentos em benchmarks de ancoragem temporal e detecção de destaques demonstram que o TEMPURA supera modelos de linha de base robustos, confirmando que a integração do raciocínio causal com a segmentação temporal refinada leva a uma melhor compreensão de vídeos.
As abordagens atuais de personalização multiassunto enfrentam dois desafios críticos: a dificuldade em adquirir dados de treinamento diversos com múltiplos assuntos e o entrelaçamento de atributos entre diferentes assuntos. Para superar essas lacunas, propomos o MUSAR - um framework simples, porém eficaz, para alcançar uma personalização multiassunto robusta, exigindo apenas dados de treinamento de um único assunto. Primeiramente, para superar a limitação de dados, introduzimos o aprendizado de díptico com correção de viés. Ele constrói pares de treinamento de díptico a partir de imagens de um único assunto para facilitar o aprendizado multiassunto, enquanto corrige ativamente o viés de distribuição introduzido pela construção do díptico por meio de roteamento de atenção estática e LoRA de ramificação dupla. Em segundo lugar, para eliminar o entrelaçamento entre assuntos, introduzimos um mecanismo de roteamento de atenção dinâmica, que estabelece mapeamentos bijetivos de forma adaptativa entre as imagens geradas e os assuntos condicionais. Esse design não apenas alcança o desacoplamento das representações multiassunto, mas também mantém um desempenho de generalização escalável com o aumento de assuntos de referência. Experimentos abrangentes demonstram que nosso MUSAR supera os métodos existentes - mesmo aqueles treinados em conjuntos de dados multiassunto - em qualidade de imagem, consistência do assunto e naturalidade da interação, apesar de exigir apenas um conjunto de dados de um único assunto.
Métodos recentes de NeRF em cenas de grande escala destacaram a importância da decomposição de cenas para NeRFs escaláveis. Embora tenham alcançado uma escalabilidade razoável, ainda existem vários problemas críticos não explorados, como a decomposição aprendível, a modelagem da heterogeneidade da cena e a eficiência de modelagem. Neste artigo, apresentamos o Switch-NeRF++, uma rede de Mistura Heterogênea de Especialistas em Hash (HMoHE) que aborda esses desafios dentro de uma estrutura unificada. Trata-se de um NeRF altamente escalável que aprende a decomposição heterogênea e NeRFs heterogêneos de forma eficiente para cenas de grande escala de ponta a ponta. Em nossa estrutura, uma rede de portas aprende a decompor as cenas e alocar pontos 3D a especialistas NeRF específicos. Essa rede de portas é co-otimizada com os especialistas, por meio de nossa proposta de estrutura NeRF de Mistura de Especialistas com Portas Esparsas (MoE). Incorporamos uma rede de portas baseada em hash e especialistas em hash heterogêneos distintos. A rede de portas baseada em hash aprende eficientemente a decomposição da cena de grande escala. Os especialistas em hash heterogêneos distintos consistem em grades de hash com diferentes faixas de resolução, permitindo o aprendizado eficaz da representação heterogênea de diferentes partes da cena. Essas escolhas de design tornam nossa estrutura uma solução NeRF de ponta a ponta e altamente escalável para a modelagem de cenas de grande escala do mundo real, alcançando tanto qualidade quanto eficiência. Avaliamos nossa precisão e escalabilidade em conjuntos de dados NeRF de grande escala existentes e em um novo conjunto de dados com cenas de escala muito grande (>6,5 km²) do UrbanBIS. Experimentos extensivos demonstram que nossa abordagem pode ser facilmente escalada para várias cenas de grande escala e alcançar a precisão de renderização de cenas mais avançada do estado da arte. Além disso, nosso método exibe eficiência significativa, com uma aceleração de 8x no treinamento e uma aceleração de 16x na renderização em comparação com o Switch-NeRF. Os códigos serão liberados em https://github.com/MiZhenxing/Switch-NeRF.
Os mecanismos de atenção são fundamentais para o sucesso dos grandes modelos de linguagem (LLMs), impulsionando avanços significativos em múltiplas áreas. No entanto, para dados estruturados em grafos, que exigem ênfase nas conexões topológicas, eles se mostram inferiores em comparação com mecanismos de passagem de mensagens em links fixos, como os empregados pelas Redes Neurais de Grafos (GNNs). Isso levanta uma questão: "A atenção falha para grafos em contextos de linguagem natural?" Motivados por essas observações, embarcamos em um estudo empírico sob a perspectiva dos mecanismos de atenção para explorar como os LLMs processam dados estruturados em grafos. O objetivo é obter insights mais profundos sobre o comportamento da atenção dos LLMs em estruturas de grafos. Descobrimos fenômenos únicos sobre como os LLMs aplicam a atenção a dados estruturados em grafos e analisamos essas descobertas para melhorar a modelagem de tais dados por LLMs. As principais conclusões de nossa pesquisa são: 1) Embora os LLMs possam reconhecer dados de grafos e capturar interações entre texto e nós, eles têm dificuldade em modelar relações entre nós dentro de estruturas de grafos devido a limitações arquitetônicas inerentes. 2) A distribuição de atenção dos LLMs entre os nós do grafo não se alinha com padrões estruturais ideais, indicando uma falha em se adaptar às nuances da topologia do grafo. 3) Nem a atenção totalmente conectada nem a conectividade fixa são ideais; cada uma tem limitações específicas em seus cenários de aplicação. Em vez disso, janelas de atenção em estado intermediário melhoram o desempenho de treinamento dos LLMs e transicionam de forma contínua para janelas totalmente conectadas durante a inferência. Código-fonte: https://github.com/millioniron/LLM_exploration{LLM4Exploration}
LLMs treinados em conjuntos de dados massivos podem inadvertidamente adquirir informações sensíveis, como detalhes pessoais e conteúdo potencialmente prejudicial. Esse risco é ainda mais acentuado em LLMs multimodais, pois eles integram informações de múltiplas modalidades (imagem e texto). Adversários podem explorar esse conhecimento por meio de prompts multimodais para extrair detalhes sensíveis. Avaliar quão efetivamente MLLMs podem esquecer tais informações (desaprendizado direcionado) exige a criação de pares imagem-texto de alta qualidade e bem anotados. Embora trabalhos anteriores sobre desaprendizado tenham se concentrado em texto, o desaprendizado multimodal permanece pouco explorado. Para preencher essa lacuna, primeiro introduzimos um benchmark de desaprendizado multimodal, UnLOK-VQA (Unlearning Outside Knowledge VQA), bem como uma estrutura de ataque e defesa para avaliar métodos de exclusão de conhecimento multimodal específico de MLLMs. Estendemos um conjunto de dados de questionamento visual usando um pipeline automatizado que gera amostras de proximidade variável para testar generalização e especificidade, seguido por filtragem manual para manter alta qualidade. Em seguida, avaliamos seis objetivos de defesa contra sete ataques (quatro whitebox, três blackbox), incluindo um novo método whitebox que aproveita a interpretabilidade dos estados ocultos. Nossos resultados mostram que ataques multimodais superam aqueles baseados apenas em texto ou imagem, e que a defesa mais eficaz remove informações de resposta dos estados internos do modelo. Além disso, modelos maiores exibem maior robustez pós-edição, sugerindo que a escala aumenta a segurança. O UnLOK-VQA fornece um benchmark rigoroso para avançar o desaprendizado em MLLMs.
Câmeras de eventos capturam dinâmicas de movimento, oferecendo uma modalidade única com grande potencial em diversas tarefas de visão computacional. No entanto, a fusão RGB-Evento enfrenta três desalinhamentos intrínsecos: (i) temporal, (ii) espacial e (iii) modal. As representações existentes em grade de voxels negligenciam as correlações temporais entre janelas consecutivas de eventos, e sua formulação com a simples acumulação de eventos assíncronos e esparsos é incompatível com a natureza síncrona e densa da modalidade RGB. Para enfrentar esses desafios, propomos uma nova representação de eventos, o Tensor de Eventos Aprimorado por Movimento (MET, na sigla em inglês), que transforma voxels de eventos esparsos em uma forma densa e temporalmente coerente, aproveitando fluxos ópticos densos e características temporais dos eventos. Além disso, introduzimos um Módulo de Agregação de Fluxo Bidirecional com Consciência de Frequência (BFAM) e um Módulo de Fusão Temporal (TFM). O BFAM aproveita o domínio da frequência e o MET para mitigar o desalinhamento modal, enquanto os mecanismos de agregação de fluxo bidirecional e fusão temporal resolvem o desalinhamento espaço-temporal. Resultados experimentais em dois conjuntos de dados em larga escala demonstram que nosso framework supera significativamente as abordagens state-of-the-art em segmentação semântica RGB-Evento. Nosso código está disponível em: https://github.com/zyaocoder/BRENet.
Os avanços recentes na geração de texto para imagem (T2I) têm alcançado resultados impressionantes, mas os modelos existentes ainda enfrentam dificuldades com prompts que exigem conhecimento profundo do mundo e raciocínio implícito: ambos são críticos para produzir imagens semanticamente precisas, coerentes e contextualmente apropriadas em cenários do mundo real. Para abordar essa lacuna, introduzimos o WorldGenBench, um benchmark projetado para avaliar sistematicamente a fundamentação do conhecimento do mundo e as capacidades inferenciais implícitas dos modelos T2I, abrangendo tanto os domínios das humanidades quanto da natureza. Propomos o Knowledge Checklist Score, uma métrica estruturada que mede o quão bem as imagens geradas atendem às expectativas semânticas-chave. Experimentos com 21 modelos de última geração revelam que, embora os modelos de difusão liderem entre os métodos de código aberto, modelos proprietários auto-regressivos como o GPT-4o exibem integração de conhecimento e raciocínio significativamente mais fortes. Nossas descobertas destacam a necessidade de capacidades mais profundas de compreensão e inferência nos sistemas T2I de próxima geração. Página do Projeto: https://dwanzhang-ai.github.io/WorldGenBench/{https://dwanzhang-ai.github.io/WorldGenBench/}