Artigos de pesquisa em IA selecionados diariamente com traduções
De forma sistemática, investigamos uma pergunta amplamente feita: Os LLMs realmente entendem o que dizem?, que se relaciona com o termo mais familiar Papagaio Estocástico. Para isso, propomos uma avaliação sumativa sobre uma tarefa de compreensão de conceitos físicos cuidadosamente elaborada, PhysiCo. Nossa tarefa alivia o problema de memorização por meio do uso de entradas em formato de grade que descrevem abstratamente fenômenos físicos. As grades representam diferentes níveis de compreensão, desde o fenômeno central, exemplos de aplicação até analogias com outros padrões abstratos no mundo da grade. Um estudo abrangente sobre nossa tarefa demonstra: (1) LLMs de ponta, incluindo GPT-4o, o1 e Gemini 2.0 flash thinking, ficam cerca de ~40% atrás dos humanos; (2) o fenômeno do papagaio estocástico está presente nos LLMs, pois falham em nossa tarefa de grade, mas conseguem descrever e reconhecer bem os mesmos conceitos em linguagem natural; (3) nossa tarefa desafia os LLMs devido a dificuldades intrínsecas, em vez do formato de grade não familiar, já que o aprendizado em contexto e o ajuste fino nos mesmos dados formatados pouco acrescentaram ao seu desempenho.
Nos modelos de linguagem grandes (LLMs) modernos, lidar com comprimentos de contexto muito longos apresenta desafios significativos, pois causa velocidades de inferência mais lentas e custos de memória aumentados. Além disso, a maioria dos LLMs pré-treinados existentes falha em generalizar além dos comprimentos de sequência de treinamento originais. Para permitir a utilização eficiente e prática de contextos longos, apresentamos o InfiniteHiP, um novo e prático framework de inferência LLM que acelera o processamento ao eliminar dinamicamente tokens de contexto irrelevantes por meio de um algoritmo de poda de token hierárquico modular. Nosso método também permite a generalização para sequências mais longas, aplicando seletivamente vários métodos de ajuste de RoPE de acordo com os padrões de atenção internos nos LLMs. Além disso, transferimos o cache de chave-valor para a memória do host durante a inferência, reduzindo significativamente a pressão de memória da GPU. Como resultado, o InfiniteHiP permite o processamento de até 3 milhões de tokens em uma única GPU L40s 48GB - 3 vezes maior - sem qualquer perda permanente de informações de contexto. Nosso framework alcança uma aceleração de 18,95 vezes na decodificação de atenção para um contexto de 1 milhão de tokens sem exigir treinamento adicional. Implementamos nosso método no framework SGLang e demonstramos sua eficácia e praticidade por meio de extensas avaliações.
Grandes codificadores de texto em modelos de difusão texto-imagem (T2I) em larga escala têm demonstrado desempenho excepcional na geração de imagens de alta qualidade a partir de estímulos textuais. Ao contrário de módulos de remoção de ruído que dependem de múltiplas etapas iterativas, os codificadores de texto requerem apenas uma passagem direta para produzir incorporações de texto. No entanto, apesar de sua contribuição mínima para o tempo total de inferência e operações de ponto flutuante (FLOPs), os codificadores de texto demandam uso significativamente maior de memória, até oito vezes mais do que os módulos de remoção de ruído. Para lidar com essa ineficiência, propomos camadas de Salto e Reutilização (Skrr), uma estratégia de poda simples, porém eficaz, projetada especificamente para codificadores de texto em modelos de difusão T2I. Skrr explora a redundância inerente em blocos de transformadores, pulando ou reutilizando seletivamente certas camadas de maneira adaptada para tarefas T2I, reduzindo assim o consumo de memória sem comprometer o desempenho. Experimentos extensos demonstram que Skrr mantém a qualidade da imagem comparável ao modelo original, mesmo sob altos níveis de esparsidade, superando os métodos de poda por bloco existentes. Além disso, Skrr alcança eficiência de memória de ponta, preservando o desempenho em múltiplas métricas de avaliação, incluindo os escores FID, CLIP, DreamSim e GenEval.
Os avanços recentes nas técnicas de difusão impulsionaram a geração de imagens e vídeos para níveis sem precedentes de qualidade, acelerando significativamente a implementação e aplicação de IA generativa. No entanto, a tecnologia de geração de formas 3D até agora ficou para trás, limitada por restrições na escala de dados 3D, complexidade no processamento de dados 3D e exploração insuficiente de técnicas avançadas no domínio 3D. As abordagens atuais para geração de formas 3D enfrentam desafios substanciais em termos de qualidade de saída, capacidade de generalização e alinhamento com condições de entrada. Apresentamos o TripoSG, um novo paradigma de difusão de formas simplificado capaz de gerar malhas 3D de alta fidelidade com correspondência precisa às imagens de entrada. Especificamente, propomos: 1) Um transformador de fluxo retificado em grande escala para geração de formas 3D, alcançando fidelidade de ponta por meio do treinamento em dados extensos e de alta qualidade. 2) Uma estratégia de treinamento supervisionado híbrido combinando perdas SDF, normais e eikonais para VAE 3D, alcançando desempenho de reconstrução 3D de alta qualidade. 3) Um pipeline de processamento de dados para gerar 2 milhões de amostras 3D de alta qualidade, destacando as regras cruciais para qualidade e quantidade de dados no treinamento de modelos generativos 3D. Através de experimentos abrangentes, validamos a eficácia de cada componente em nosso novo framework. A integração perfeita dessas partes permitiu ao TripoSG alcançar desempenho de ponta na geração de formas 3D. As formas 3D resultantes exibem detalhes aprimorados devido às capacidades de alta resolução e demonstram fidelidade excepcional às imagens de entrada. Além disso, o TripoSG demonstra maior versatilidade na geração de modelos 3D a partir de estilos e conteúdos de imagem diversos, mostrando fortes capacidades de generalização. Para promover o progresso e a inovação no campo da geração 3D, disponibilizaremos nosso modelo publicamente.
Com o aumento do número de modelos disponíveis publicamente, provavelmente existem modelos pré-treinados online para a maioria das tarefas que os usuários necessitam. No entanto, os métodos atuais de busca de modelos são rudimentares, essencialmente uma busca baseada em texto na documentação, o que impede os usuários de encontrar os modelos relevantes. Este artigo apresenta o ProbeLog, um método para recuperar modelos de classificação que podem reconhecer um conceito-alvo, como "Cachorro", sem acesso aos metadados do modelo ou aos dados de treinamento. Diferentemente dos métodos de sondagem anteriores, o ProbeLog calcula um descritor para cada dimensão de saída (logit) de cada modelo, observando suas respostas em um conjunto fixo de entradas (sondas). Nosso método suporta tanto a recuperação baseada em logit ("encontrar mais logit como este") quanto a recuperação baseada em texto sem treinamento ("encontrar todos os logit correspondentes a cachorros"). Como as representações baseadas em sondagem requerem várias passagens custosas de feedforward pelo modelo, desenvolvemos um método, baseado em filtragem colaborativa, que reduz o custo de codificação de repositórios em 3 vezes. Demonstramos que o ProbeLog alcança alta precisão de recuperação, tanto em tarefas de busca do mundo real quanto em tarefas de busca refinada, e é escalável para repositórios de tamanho completo.
Apresentamos o SelfCite, uma abordagem auto-supervisionada inovadora que alinha LLMs para gerar citações de alta qualidade, refinadas e em nível de sentença para as afirmações em suas respostas geradas. Em vez de depender apenas de anotações caras e trabalhosas, o SelfCite aproveita um sinal de recompensa fornecido pelo LLM por meio da ablação de contexto: se uma citação for necessária, remover o texto citado do contexto deve impedir a mesma resposta; se for suficiente, manter apenas o texto citado deve preservar a mesma resposta. Essa recompensa pode orientar a estratégia de amostragem de melhor-de-N no momento da inferência para melhorar significativamente a qualidade das citações, além de ser usada na otimização de preferência para ajustar diretamente os modelos para gerar melhores citações. A eficácia do SelfCite é demonstrada ao aumentar o F1 de citação em até 5,3 pontos no benchmark LongBench-Cite em cinco tarefas de resposta a perguntas de longo formato.
Aproveitar os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para criar agentes incorporados oferece uma via promissora para lidar com tarefas do mundo real. Enquanto os agentes incorporados centrados na linguagem têm recebido atenção substancial, os agentes incorporados baseados em MLLMs permanecem pouco explorados devido à falta de estruturas abrangentes de avaliação. Para preencher essa lacuna, apresentamos o EmbodiedBench, um extenso benchmark projetado para avaliar agentes incorporados orientados pela visão. O EmbodiedBench apresenta: (1) um conjunto diversificado de 1.128 tarefas de teste em quatro ambientes, abrangendo desde tarefas semânticas de alto nível (por exemplo, domésticas) até tarefas de baixo nível envolvendo ações atômicas (por exemplo, navegação e manipulação); e (2) seis subconjuntos meticulosamente elaborados que avaliam capacidades essenciais do agente, como raciocínio do senso comum, compreensão de instruções complexas, consciência espacial, percepção visual e planejamento de longo prazo. Através de experimentos extensivos, avaliamos 13 principais MLLMs proprietários e de código aberto dentro do EmbodiedBench. Nossas descobertas revelam que: MLLMs se destacam em tarefas de alto nível, mas têm dificuldades com manipulação de baixo nível, sendo que o melhor modelo, GPT-4o, obteve uma pontuação média de apenas 28,9%. O EmbodiedBench fornece uma plataforma de avaliação padronizada multifacetada que não apenas destaca desafios existentes, mas também oferece insights valiosos para avançar os agentes incorporados baseados em MLLM. Nosso código está disponível em https://embodiedbench.github.io.
Este artigo investiga metodologias de seleção de dados e fusão de modelos com o objetivo de incorporar capacidades avançadas de raciocínio, como as do DeepSeek R1, em grandes modelos de linguagem específicos de idiomas (LLMs), com foco especial no LLM tailandês. Nosso objetivo é aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas, mantendo suas habilidades no idioma-alvo. O DeepSeek R1 se destaca em raciocínio, mas beneficia principalmente idiomas de alto recurso, como inglês e chinês. No entanto, idiomas de baixo recurso continuam subatendidos devido à predominância de dados de treinamento e otimizações de modelo centrados em inglês, o que limita o desempenho nesses idiomas. Essa limitação resulta em trocas de código pouco confiáveis e eficácia reduzida em tarefas em idiomas de baixo recurso. Enquanto isso, iniciativas locais e regionais de LLM tentaram preencher essa lacuna desenvolvendo LLMs específicos de idiomas que se concentram em melhorar a fidelidade linguística local. Demonstramos que, apenas com conjuntos de dados disponíveis publicamente e um orçamento computacional de $120, é possível aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas para igualar o nível do DeepSeek R1, sem comprometer seu desempenho em tarefas no idioma-alvo.
Os agentes de linguagem de interpretação de papéis (ALIPs) surgiram como aplicações promissoras de grandes modelos de linguagem (GMLs). No entanto, simular personagens estabelecidos apresenta uma tarefa desafiadora para ALIPs, devido à falta de conjuntos de dados de personagens autênticos e métodos de avaliação sutis usando tais dados. Neste artigo, apresentamos CoSER, uma coleção de um conjunto de dados de alta qualidade, modelos abertos e um protocolo de avaliação para ALIPs eficazes de personagens estabelecidos. O conjunto de dados CoSER abrange 17.966 personagens de 771 livros renomados. Ele fornece diálogos autênticos com complexidades do mundo real, bem como diversos tipos de dados, como configurações de conversa, experiências de personagens e pensamentos internos. Inspirados na metodologia de atuação, introduzimos a atuação de circunstâncias dadas para treinar e avaliar ALIPs de interpretação de papéis, onde os GMLs retratam sequencialmente vários personagens em cenas de livros. Usando nosso conjunto de dados, desenvolvemos CoSER 8B e CoSER 70B, ou seja, GMLs de interpretação de papéis abertos avançados construídos nos modelos LLaMA-3.1. Experimentos extensivos demonstram o valor do conjunto de dados CoSER para treinamento, avaliação e recuperação de ALIPs. Além disso, o CoSER 70B exibe desempenho de ponta superando ou igualando o GPT-4o em nossa avaliação e em três benchmarks existentes, ou seja, alcançando 75,80% e 93,47% de precisão nos benchmarks InCharacter e LifeChoice, respectivamente.
Responder perguntas com a Cadeia de Pensamento (CoT) melhorou significativamente as capacidades de raciocínio dos Modelos de Linguagem Grandes (LLMs), no entanto, seu impacto nos Modelos Multimodais Grandes (LMMs) ainda carece de uma avaliação sistemática e investigação aprofundada. Neste artigo, apresentamos o MME-CoT, um benchmark especializado que avalia o desempenho de raciocínio CoT dos LMMs, abrangendo seis domínios: matemática, ciência, OCR, lógica, espaço-tempo e cenas gerais. Como o primeiro estudo abrangente nesta área, propomos uma suíte de avaliação abrangente que incorpora três métricas inovadoras que avaliam a qualidade, robustez e eficiência de raciocínio em um nível granular. Aproveitando dados de alta qualidade selecionados e uma estratégia de avaliação única, realizamos uma análise aprofundada dos LMMs de ponta, descobrindo várias percepções-chave: 1) Modelos com mecanismo de reflexão demonstram uma qualidade CoT superior, com Kimi k1.5 superando o GPT-4o e demonstrando os melhores resultados de qualidade; 2) A solicitação CoT frequentemente degrada o desempenho do LMM em tarefas com muita percepção, sugerindo um comportamento potencialmente prejudicial de excesso de pensamento; e 3) Embora a qualidade CoT seja alta, os LMMs com reflexão exibem uma ineficiência significativa tanto nas fases de resposta normal quanto de autocorreção. Esperamos que o MME-CoT sirva como base para o avanço do raciocínio multimodal nos LMMs. Página do Projeto: https://mmecot.github.io/
Arquiteturas sem codificador foram exploradas preliminarmente no domínio visual 2D, no entanto, permanece uma questão em aberto se elas podem ser aplicadas de forma eficaz em cenários de compreensão 3D. Neste artigo, apresentamos a primeira investigação abrangente sobre o potencial de arquiteturas sem codificador para superar os desafios dos Grandes Modelos Multimodais 3D (LMMs) baseados em codificador. Esses desafios incluem a falha em se adaptar a resoluções variadas de nuvens de pontos e as características dos pontos do codificador que não atendem às necessidades semânticas dos Grandes Modelos de Linguagem (LLMs). Identificamos aspectos-chave para os LMMs 3D removerem o codificador e permitirem que o LLM assuma o papel do codificador 3D: 1) Propomos a estratégia de Codificação Semântica incorporada ao LLM na fase de pré-treinamento, explorando os efeitos de várias perdas auto-supervisionadas de nuvem de pontos. E apresentamos a Perda Semântica Híbrida para extrair semântica de alto nível. 2) Introduzimos a estratégia de Agregação Geométrica Hierárquica na fase de ajuste de instruções. Isso incorpora viés indutivo nas camadas iniciais do LLM para focar nos detalhes locais das nuvens de pontos. Por fim, apresentamos o primeiro LMM 3D sem codificador, ENEL. Nosso modelo de 7B rivaliza com o modelo atual de ponta, ShapeLLM-13B, alcançando 55,0%, 50,92% e 42,7% nas tarefas de classificação, legenda e VQA, respectivamente. Nossos resultados demonstram que a arquitetura sem codificador é altamente promissora para substituir arquiteturas baseadas em codificador no campo da compreensão 3D. O código está disponível em https://github.com/Ivan-Tang-3D/ENEL
Com o surgimento de modelos avançados de raciocínio como o OpenAI o3 e o DeepSeek-R1, os grandes modelos de linguagem (LLMs) têm demonstrado notáveis capacidades de raciocínio. No entanto, sua habilidade de realizar um raciocínio lógico rigoroso permanece uma questão em aberto. Esta pesquisa sintetiza os avanços recentes em raciocínio lógico dentro dos LLMs, uma área crítica da pesquisa em IA. Ela delinea o escopo do raciocínio lógico nos LLMs, suas bases teóricas e os benchmarks usados para avaliar a proficiência de raciocínio. Analisamos as capacidades existentes em diferentes paradigmas de raciocínio - dedutivo, indutivo, abdutivo e analógico - e avaliamos estratégias para aprimorar o desempenho de raciocínio, incluindo ajustes centrados em dados, aprendizado por reforço, estratégias de decodificação e abordagens neuro-simbólicas. A revisão conclui com direções futuras, enfatizando a necessidade de uma exploração adicional para fortalecer o raciocínio lógico em sistemas de IA.
No campo em rápida evolução do Processamento de Linguagem Natural, os Modelos de Linguagem Grandes (LLMs) são encarregados de desafios de raciocínio cada vez mais complexos. Métodos tradicionais como a indução de pensamento em cadeia têm mostrado promessa, mas frequentemente não conseguem aproveitar totalmente as capacidades de raciocínio de um modelo. Este artigo apresenta o SQuARE (Sequential Question Answering Reasoning Engine), uma técnica de indução inovadora projetada para melhorar o raciocínio por meio de um paradigma de auto-interrogação. Construindo sobre estruturas CoT, o SQuARE induz os modelos a gerar e resolver múltiplas perguntas auxiliares antes de abordar a consulta principal, promovendo uma exploração mais minuciosa de vários aspectos de um tópico. Nossas avaliações abrangentes, conduzidas com os modelos Llama 3 e GPT-4o em múltiplos conjuntos de dados de perguntas e respostas, demonstram que o SQuARE supera significativamente as induções tradicionais de CoT e os métodos existentes de reformulação e resposta. Ao decompor sistematicamente as consultas, o SQuARE avança as capacidades de raciocínio dos LLMs em tarefas de raciocínio. O código está publicamente disponível em https://github.com/IntelLabs/RAG-FiT/tree/square.
Este artigo apresenta o Typhoon T1, um esforço aberto para desenvolver um modelo tailandês de raciocínio aberto. Um modelo de raciocínio é um tipo relativamente novo de modelo generativo construído sobre grandes modelos de linguagem (LLMs). Um modelo de raciocínio gera uma longa cadeia de pensamento antes de chegar a uma resposta final, uma abordagem que se mostrou melhorar o desempenho em tarefas complexas. No entanto, os detalhes sobre o desenvolvimento de tal modelo são limitados, especialmente para modelos de raciocínio que podem gerar traços em um idioma com recursos limitados. O Typhoon T1 apresenta um esforço aberto que mergulha nos detalhes do desenvolvimento de um modelo de raciocínio de forma mais econômica, aproveitando o ajuste fino supervisionado usando conjuntos de dados abertos, em vez de aprendizado por reforço. Este artigo compartilha os detalhes sobre a geração e treinamento de dados sintéticos, bem como nosso conjunto de dados e pesos do modelo. Além disso, fornecemos insights obtidos com o desenvolvimento de um modelo de raciocínio que generaliza entre domínios e é capaz de gerar traços de raciocínio em um idioma com recursos limitados, utilizando o tailandês como exemplo. Esperamos que este esforço aberto forneça uma base para pesquisas futuras neste campo.
A técnica Chain-of-Thought melhora significativamente a capacidade de raciocínio de um modelo, mas também acarreta um aumento considerável nos custos de inferência devido a cadeias longas. Com a observação de que o caminho de raciocínio pode ser facilmente comprimido em tarefas simples, mas enfrenta dificuldades em tarefas complexas, exploramos a viabilidade de controlar elasticamente o comprimento dos caminhos de raciocínio com apenas um modelo, reduzindo assim o overhead de inferência de modelos de raciocínio dinamicamente com base na dificuldade da tarefa. Introduzimos uma nova estratégia de ajuste e inferência chamada CoT-Valve, projetada para permitir que os modelos gerem cadeias de raciocínio de comprimentos variados. Para alcançar isso, propomos identificar uma direção no espaço de parâmetros que, quando manipulada, pode controlar efetivamente o comprimento do CoT gerado. Além disso, demonstramos que essa propriedade é valiosa para comprimir a cadeia de raciocínio. Construímos conjuntos de dados com cadeias de longas a curtas para as mesmas perguntas e exploramos duas estratégias aprimoradas para o CoT-Valve: (1) um método de ajuste de CoT precisamente compressível e (2) uma abordagem progressiva de compressão do comprimento da cadeia. Nossos experimentos mostram que o CoT-Valve permite com sucesso a controlabilidade e compressibilidade da cadeia, apresentando melhor desempenho do que o controle baseado em prompts. Aplicamos esse método ao QwQ-32B-Preview, reduzindo as cadeias de raciocínio no GSM8K de 741 para 225 tokens com uma leve queda de desempenho (95,07% para 94,92%) e no AIME de 6827 para 4629 tokens, com apenas uma resposta incorreta adicional.
Os modelos de incorporação multimodal têm recebido significativa atenção por sua capacidade de mapear dados de diferentes modalidades, como texto e imagens, em um espaço de representação unificado. No entanto, a limitação de dados multimodais rotulados frequentemente prejudica o desempenho da incorporação. Abordagens recentes têm utilizado a síntese de dados para lidar com esse problema, no entanto, a qualidade dos dados sintéticos permanece um gargalo crítico. Neste trabalho, identificamos três critérios para dados multimodais sintéticos de alta qualidade. Primeiramente, a amplitude garante que os dados gerados cubram diversas tarefas e modalidades, tornando-os aplicáveis a vários cenários subsequentes. Em segundo lugar, o alinhamento robusto entre modalidades diferentes torna-as semanticamente consistentes. Em terceiro lugar, a alta fidelidade garante que os dados sintéticos mantenham detalhes realistas para aprimorar sua confiabilidade. Guiados por esses princípios, sintetizamos conjuntos de dados que: (1) abrangem uma ampla gama de tarefas, combinações de modalidades e idiomas, (2) são gerados por meio de um processo de pensamento profundo em uma única passagem de um grande modelo de linguagem multimodal e (3) incorporam imagens do mundo real com textos precisos e relevantes, garantindo fidelidade por meio de autoavaliação e refinamento. Aproveitando esses conjuntos de dados sintéticos e rotulados de alta qualidade, treinamos um modelo E5 multimodal multilíngue mmE5. Experimentos extensivos demonstram que o mmE5 alcança um desempenho de ponta no Benchmark MMEB e um desempenho multilíngue superior no benchmark XTD. Nossos códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/haon-chen/mmE5.
Abordamos o desafio de desenvolver um controlador de rastreamento neural generalizável para manipulação habilidosa a partir de referências humanas. Este controlador tem como objetivo gerenciar uma mão de robô habilidosa para manipular objetos diversos para vários propósitos definidos por interações cinemáticas humano-objeto. Desenvolver tal controlador é complicado devido à dinâmica de contato intricada da manipulação habilidosa e à necessidade de adaptabilidade, generalização e robustez. Métodos atuais de aprendizado por reforço e otimização de trajetória frequentemente ficam aquém devido à sua dependência de recompensas específicas da tarefa ou modelos precisos do sistema. Introduzimos uma abordagem que cura demonstrações bem-sucedidas em grande escala de rastreamento de robô, compostas por pares de referências humanas e ações de robô, para treinar um controlador neural. Utilizando um ciclo de dados, aprimoramos iterativamente o desempenho do controlador, bem como o número e a qualidade das demonstrações bem-sucedidas de rastreamento. Exploramos as demonstrações de rastreamento disponíveis e integramos cuidadosamente o aprendizado por reforço e o aprendizado por imitação para impulsionar o desempenho do controlador em ambientes dinâmicos. Ao mesmo tempo, para obter demonstrações de rastreamento de alta qualidade, otimizamos individualmente o rastreamento por trajetória, alavancando o controlador de rastreamento aprendido em um método de otimização homotópica. A otimização homotópica, imitando uma cadeia de pensamento, auxilia na resolução de problemas desafiadores de rastreamento de trajetória para aumentar a diversidade das demonstrações. Demonstramos nosso sucesso ao treinar um controlador neural generalizável e avaliá-lo tanto em simulação quanto no mundo real. Nosso método alcança mais de 10% de melhoria nas taxas de sucesso em comparação com as bases líderes. O site do projeto com resultados animados está disponível em https://meowuu7.github.io/DexTrack/.
O raciocínio matemático em Modelos de Linguagem de Grande Escala (LLMs) é frequentemente avaliado usando benchmarks com intervalos numéricos limitados, falhando em refletir a resolução de problemas do mundo real em diversas escalas. Além disso, a maioria dos métodos de avaliação existentes apenas comparam as saídas do modelo com respostas verdadeiras, obscurecendo insights nos processos de raciocínio. Para lidar com essas limitações, introduzimos o GSM-Ranges, um gerador de conjuntos de dados derivado do GSM8K que perturba sistematicamente os valores numéricos em problemas matemáticos para avaliar a robustez do modelo em diferentes escalas numéricas. Além disso, propomos uma metodologia de avaliação inovadora que distingue entre erros lógicos e não lógicos, oferecendo uma avaliação mais precisa dos processos de raciocínio além da precisão computacional. Nossos experimentos com vários modelos revelam um aumento significativo nas taxas de erros lógicos - de até 14 pontos percentuais - à medida que a complexidade numérica aumenta, demonstrando uma fraqueza geral no raciocínio com valores numéricos fora da distribuição. Além disso, enquanto os modelos demonstram alta precisão em tarefas aritméticas isoladas, seu desempenho deteriora substancialmente quando os cálculos são incorporados em problemas de palavras. Essas descobertas fornecem uma avaliação abrangente das capacidades de raciocínio matemático dos LLMs e orientam futuras direções de pesquisa para melhorar a generalização numérica em modelos de linguagem.
A criação de magia e ilusões é um dos aspectos mais emocionantes da produção cinematográfica, com efeitos visuais (VFX) atuando como a força motriz por trás de experiências cinematográficas inesquecíveis. Enquanto avanços recentes em inteligência artificial generativa impulsionaram o progresso na síntese genérica de imagens e vídeos, o domínio da geração de VFX controláveis permanece relativamente pouco explorado. Neste trabalho, propomos um novo paradigma para a geração de VFX animados como animação de imagens, onde efeitos dinâmicos são gerados a partir de descrições textuais amigáveis ao usuário e imagens de referência estáticas. Nosso trabalho apresenta duas contribuições principais: (i) Open-VFX, o primeiro conjunto de dados de vídeo de VFX de alta qualidade abrangendo 15 categorias de efeitos diversas, anotado com descrições textuais, máscaras de segmentação de instâncias para condicionamento espacial e timestamps de início-fim para controle temporal. (ii) VFX Creator, um framework de geração de VFX controláveis simples, porém eficaz, baseado em um Transformador de Difusão de Vídeo. O modelo incorpora um adaptador LoRA controlável espacial e temporal, exigindo vídeos de treinamento mínimos. Especificamente, um módulo de controle de máscara plug-and-play permite manipulação espacial em nível de instância, enquanto timestamps de movimento de início-fim tokenizados incorporados no processo de difusão, juntamente com o codificador de texto, permitem controle temporal preciso sobre o tempo e ritmo dos efeitos. Experimentos extensivos no conjunto de testes Open-VFX demonstram a superioridade do sistema proposto na geração de efeitos realistas e dinâmicos, alcançando desempenho de ponta e capacidade de generalização tanto em controlabilidade espacial quanto temporal. Além disso, introduzimos uma métrica especializada para avaliar a precisão do controle temporal. Ao unir técnicas tradicionais de VFX com abordagens generativas, o VFX Creator desbloqueia novas possibilidades para a geração eficiente e de alta qualidade de efeitos de vídeo, tornando os VFX avançados acessíveis a um público mais amplo.
A reconstrução latente 3D tem demonstrado grande potencial no aprimoramento da compreensão semântica 3D e na geração 3D ao destilar características 2D no espaço 3D. No entanto, as abordagens existentes enfrentam dificuldades com a lacuna de domínio entre o espaço de características 2D e as representações 3D, resultando em desempenho de renderização degradado. Para enfrentar esse desafio, propomos uma estrutura inovadora que integra a consciência 3D ao espaço latente 2D. A estrutura consiste em três etapas: (1) um método de auto codificação consciente da correspondência que melhora a consistência 3D das representações latentes 2D, (2) um campo de radiação latente (LRF) que eleva essas representações 2D conscientes 3D para o espaço 3D, e (3) uma estratégia de alinhamento VAE-Campo de Radiação (VAE-RF) que melhora a decodificação de imagens a partir das representações 2D renderizadas. Experimentos extensivos demonstram que nosso método supera as abordagens de reconstrução latente 3D mais avançadas em termos de desempenho de síntese e generalização entre conjuntos de dados em diversas cenas internas e externas. Até onde sabemos, este é o primeiro trabalho que mostra que as representações de campo de radiação construídas a partir de representações latentes 2D podem produzir desempenho de reconstrução 3D fotorrealista.
A detecção de anomalias industrial avança graças a conjuntos de dados como MVTec-AD e VisA. No entanto, eles sofrem de limitações em termos do número de amostras de defeitos, tipos de defeitos e disponibilidade de cenas do mundo real. Essas restrições impedem os pesquisadores de explorar ainda mais o desempenho da detecção industrial com maior precisão. Para isso, propomos um novo conjunto de dados de detecção de anomalias em larga escala chamado 3CAD, derivado de linhas de produção 3C reais. Especificamente, o 3CAD proposto inclui oito tipos diferentes de peças fabricadas, totalizando 27.039 imagens de alta resolução rotuladas com anomalias ao nível de pixel. As principais características do 3CAD são que ele abrange regiões anômalas de diferentes tamanhos, múltiplos tipos de anomalias e a possibilidade de múltiplas regiões anômalas e múltiplos tipos de anomalias por imagem anômala. Este é o maior e primeiro conjunto de dados de detecção de anomalias dedicado ao controle de qualidade de produtos 3C para exploração e desenvolvimento pela comunidade. Enquanto isso, introduzimos um framework simples, porém eficaz, para detecção de anomalias não supervisionada: um paradigma de detecção de Coarse-to-Fine com Orientação de Recuperação (CFRG). Para detectar pequenas anomalias de defeito, o CFRG proposto utiliza um paradigma de detecção coarse-to-fine. Especificamente, utilizamos um modelo de destilação heterogêneo para localização grosseira e depois localização fina por meio de um modelo de segmentação. Além disso, para capturar melhor padrões normais, introduzimos características de recuperação como orientação. Por fim, relatamos os resultados de nosso framework CFRG e métodos populares de detecção de anomalias no conjunto de dados 3CAD, demonstrando forte competitividade e fornecendo um benchmark altamente desafiador para promover o desenvolvimento do campo de detecção de anomalias. Os dados e o código estão disponíveis em: https://github.com/EnquanYang2022/3CAD.