Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

O Papagaio Estocástico no Ombro do LLM: Uma Avaliação Sumativa da Compreensão de Conceitos Físicos
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Feb 13

ByMo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

191

De forma sistemática, investigamos uma pergunta amplamente feita: Os LLMs realmente entendem o que dizem?, que se relaciona com o termo mais familiar Papagaio Estocástico. Para isso, propomos uma avaliação sumativa sobre uma tarefa de compreensão de conceitos físicos cuidadosamente elaborada, PhysiCo. Nossa tarefa alivia o problema de memorização por meio do uso de entradas em formato de grade que descrevem abstratamente fenômenos físicos. As grades representam diferentes níveis de compreensão, desde o fenômeno central, exemplos de aplicação até analogias com outros padrões abstratos no mundo da grade. Um estudo abrangente sobre nossa tarefa demonstra: (1) LLMs de ponta, incluindo GPT-4o, o1 e Gemini 2.0 flash thinking, ficam cerca de ~40% atrás dos humanos; (2) o fenômeno do papagaio estocástico está presente nos LLMs, pois falham em nossa tarefa de grade, mas conseguem descrever e reconhecer bem os mesmos conceitos em linguagem natural; (3) nossa tarefa desafia os LLMs devido a dificuldades intrínsecas, em vez do formato de grade não familiar, já que o aprendizado em contexto e o ajuste fino nos mesmos dados formatados pouco acrescentaram ao seu desempenho.

InfiniteHiP: Ampliando o Contexto do Modelo de Linguagem até 3 Milhões de Tokens em uma Única GPU
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

Feb 13

ByHeejun Lee, Geon Park, Jaduk Suh, Sung Ju Hwang

148

Nos modelos de linguagem grandes (LLMs) modernos, lidar com comprimentos de contexto muito longos apresenta desafios significativos, pois causa velocidades de inferência mais lentas e custos de memória aumentados. Além disso, a maioria dos LLMs pré-treinados existentes falha em generalizar além dos comprimentos de sequência de treinamento originais. Para permitir a utilização eficiente e prática de contextos longos, apresentamos o InfiniteHiP, um novo e prático framework de inferência LLM que acelera o processamento ao eliminar dinamicamente tokens de contexto irrelevantes por meio de um algoritmo de poda de token hierárquico modular. Nosso método também permite a generalização para sequências mais longas, aplicando seletivamente vários métodos de ajuste de RoPE de acordo com os padrões de atenção internos nos LLMs. Além disso, transferimos o cache de chave-valor para a memória do host durante a inferência, reduzindo significativamente a pressão de memória da GPU. Como resultado, o InfiniteHiP permite o processamento de até 3 milhões de tokens em uma única GPU L40s 48GB - 3 vezes maior - sem qualquer perda permanente de informações de contexto. Nosso framework alcança uma aceleração de 18,95 vezes na decodificação de atenção para um contexto de 1 milhão de tokens sem exigir treinamento adicional. Implementamos nosso método no framework SGLang e demonstramos sua eficácia e praticidade por meio de extensas avaliações.

Skrr: Camadas Codificadoras de Texto Skip e Reutilização para Geração Eficiente de Texto para Imagem
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Feb 12

ByHoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun

Grandes codificadores de texto em modelos de difusão texto-imagem (T2I) em larga escala têm demonstrado desempenho excepcional na geração de imagens de alta qualidade a partir de estímulos textuais. Ao contrário de módulos de remoção de ruído que dependem de múltiplas etapas iterativas, os codificadores de texto requerem apenas uma passagem direta para produzir incorporações de texto. No entanto, apesar de sua contribuição mínima para o tempo total de inferência e operações de ponto flutuante (FLOPs), os codificadores de texto demandam uso significativamente maior de memória, até oito vezes mais do que os módulos de remoção de ruído. Para lidar com essa ineficiência, propomos camadas de Salto e Reutilização (Skrr), uma estratégia de poda simples, porém eficaz, projetada especificamente para codificadores de texto em modelos de difusão T2I. Skrr explora a redundância inerente em blocos de transformadores, pulando ou reutilizando seletivamente certas camadas de maneira adaptada para tarefas T2I, reduzindo assim o consumo de memória sem comprometer o desempenho. Experimentos extensos demonstram que Skrr mantém a qualidade da imagem comparável ao modelo original, mesmo sob altos níveis de esparsidade, superando os métodos de poda por bloco existentes. Além disso, Skrr alcança eficiência de memória de ponta, preservando o desempenho em múltiplas métricas de avaliação, incluindo os escores FID, CLIP, DreamSim e GenEval.

TripoSG: Síntese de Forma 3D de Alta Fidelidade usando Modelos de Fluxo Retificado em Grande Escala
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Feb 10

ByYangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao

Os avanços recentes nas técnicas de difusão impulsionaram a geração de imagens e vídeos para níveis sem precedentes de qualidade, acelerando significativamente a implementação e aplicação de IA generativa. No entanto, a tecnologia de geração de formas 3D até agora ficou para trás, limitada por restrições na escala de dados 3D, complexidade no processamento de dados 3D e exploração insuficiente de técnicas avançadas no domínio 3D. As abordagens atuais para geração de formas 3D enfrentam desafios substanciais em termos de qualidade de saída, capacidade de generalização e alinhamento com condições de entrada. Apresentamos o TripoSG, um novo paradigma de difusão de formas simplificado capaz de gerar malhas 3D de alta fidelidade com correspondência precisa às imagens de entrada. Especificamente, propomos: 1) Um transformador de fluxo retificado em grande escala para geração de formas 3D, alcançando fidelidade de ponta por meio do treinamento em dados extensos e de alta qualidade. 2) Uma estratégia de treinamento supervisionado híbrido combinando perdas SDF, normais e eikonais para VAE 3D, alcançando desempenho de reconstrução 3D de alta qualidade. 3) Um pipeline de processamento de dados para gerar 2 milhões de amostras 3D de alta qualidade, destacando as regras cruciais para qualidade e quantidade de dados no treinamento de modelos generativos 3D. Através de experimentos abrangentes, validamos a eficácia de cada componente em nosso novo framework. A integração perfeita dessas partes permitiu ao TripoSG alcançar desempenho de ponta na geração de formas 3D. As formas 3D resultantes exibem detalhes aprimorados devido às capacidades de alta resolução e demonstram fidelidade excepcional às imagens de entrada. Além disso, o TripoSG demonstra maior versatilidade na geração de modelos 3D a partir de estilos e conteúdos de imagem diversos, mostrando fortes capacidades de generalização. Para promover o progresso e a inovação no campo da geração 3D, disponibilizaremos nosso modelo publicamente.

AutoCitação: Alinhamento Auto-supervisionado para Atribuição de Contexto em Modelos de Linguagem Grandes
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Feb 13

ByYung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

Apresentamos o SelfCite, uma abordagem auto-supervisionada inovadora que alinha LLMs para gerar citações de alta qualidade, refinadas e em nível de sentença para as afirmações em suas respostas geradas. Em vez de depender apenas de anotações caras e trabalhosas, o SelfCite aproveita um sinal de recompensa fornecido pelo LLM por meio da ablação de contexto: se uma citação for necessária, remover o texto citado do contexto deve impedir a mesma resposta; se for suficiente, manter apenas o texto citado deve preservar a mesma resposta. Essa recompensa pode orientar a estratégia de amostragem de melhor-de-N no momento da inferência para melhorar significativamente a qualidade das citações, além de ser usada na otimização de preferência para ajustar diretamente os modelos para gerar melhores citações. A eficácia do SelfCite é demonstrada ao aumentar o F1 de citação em até 5,3 pontos no benchmark LongBench-Cite em cinco tarefas de resposta a perguntas de longo formato.

EmbodiedBench: Avaliação Abrangente de Modelos de Linguagem Multimodais de Grande Escala para Agentes Encarnados Orientados pela Visão
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Feb 13

ByRui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang

Aproveitar os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) para criar agentes incorporados oferece uma via promissora para lidar com tarefas do mundo real. Enquanto os agentes incorporados centrados na linguagem têm recebido atenção substancial, os agentes incorporados baseados em MLLMs permanecem pouco explorados devido à falta de estruturas abrangentes de avaliação. Para preencher essa lacuna, apresentamos o EmbodiedBench, um extenso benchmark projetado para avaliar agentes incorporados orientados pela visão. O EmbodiedBench apresenta: (1) um conjunto diversificado de 1.128 tarefas de teste em quatro ambientes, abrangendo desde tarefas semânticas de alto nível (por exemplo, domésticas) até tarefas de baixo nível envolvendo ações atômicas (por exemplo, navegação e manipulação); e (2) seis subconjuntos meticulosamente elaborados que avaliam capacidades essenciais do agente, como raciocínio do senso comum, compreensão de instruções complexas, consciência espacial, percepção visual e planejamento de longo prazo. Através de experimentos extensivos, avaliamos 13 principais MLLMs proprietários e de código aberto dentro do EmbodiedBench. Nossas descobertas revelam que: MLLMs se destacam em tarefas de alto nível, mas têm dificuldades com manipulação de baixo nível, sendo que o melhor modelo, GPT-4o, obteve uma pontuação média de apenas 28,9%. O EmbodiedBench fornece uma plataforma de avaliação padronizada multifacetada que não apenas destaca desafios existentes, mas também oferece insights valiosos para avançar os agentes incorporados baseados em MLLM. Nosso código está disponível em https://embodiedbench.github.io.

Este Modelo Também Pode Reconhecer Cães? Busca de Modelo Zero-Shot a partir de Pesos
Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

Feb 13

ByJonathan Kahana, Or Nathan, Eliahu Horwitz, Yedid Hoshen

Com o aumento do número de modelos disponíveis publicamente, provavelmente existem modelos pré-treinados online para a maioria das tarefas que os usuários necessitam. No entanto, os métodos atuais de busca de modelos são rudimentares, essencialmente uma busca baseada em texto na documentação, o que impede os usuários de encontrar os modelos relevantes. Este artigo apresenta o ProbeLog, um método para recuperar modelos de classificação que podem reconhecer um conceito-alvo, como "Cachorro", sem acesso aos metadados do modelo ou aos dados de treinamento. Diferentemente dos métodos de sondagem anteriores, o ProbeLog calcula um descritor para cada dimensão de saída (logit) de cada modelo, observando suas respostas em um conjunto fixo de entradas (sondas). Nosso método suporta tanto a recuperação baseada em logit ("encontrar mais logit como este") quanto a recuperação baseada em texto sem treinamento ("encontrar todos os logit correspondentes a cachorros"). Como as representações baseadas em sondagem requerem várias passagens custosas de feedforward pelo modelo, desenvolvemos um método, baseado em filtragem colaborativa, que reduz o custo de codificação de repositórios em 3 vezes. Demonstramos que o ProbeLog alcança alta precisão de recuperação, tanto em tarefas de busca do mundo real quanto em tarefas de busca refinada, e é escalável para repositórios de tamanho completo.

Uma Receita Aberta: Adaptando Modelos de Linguagem Específicos para um Modelo de Raciocínio em Um Dia através da Fusão de Modelos
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

Feb 13

ByKunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

Este artigo investiga metodologias de seleção de dados e fusão de modelos com o objetivo de incorporar capacidades avançadas de raciocínio, como as do DeepSeek R1, em grandes modelos de linguagem específicos de idiomas (LLMs), com foco especial no LLM tailandês. Nosso objetivo é aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas, mantendo suas habilidades no idioma-alvo. O DeepSeek R1 se destaca em raciocínio, mas beneficia principalmente idiomas de alto recurso, como inglês e chinês. No entanto, idiomas de baixo recurso continuam subatendidos devido à predominância de dados de treinamento e otimizações de modelo centrados em inglês, o que limita o desempenho nesses idiomas. Essa limitação resulta em trocas de código pouco confiáveis e eficácia reduzida em tarefas em idiomas de baixo recurso. Enquanto isso, iniciativas locais e regionais de LLM tentaram preencher essa lacuna desenvolvendo LLMs específicos de idiomas que se concentram em melhorar a fidelidade linguística local. Demonstramos que, apenas com conjuntos de dados disponíveis publicamente e um orçamento computacional de $120, é possível aprimorar as capacidades de raciocínio dos LLMs específicos de idiomas para igualar o nível do DeepSeek R1, sem comprometer seu desempenho em tarefas no idioma-alvo.

CoSER: Coordenação da Simulação de Personas Baseada em LLM de Papéis Estabelecidos
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

Feb 13

ByXintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou

Os agentes de linguagem de interpretação de papéis (ALIPs) surgiram como aplicações promissoras de grandes modelos de linguagem (GMLs). No entanto, simular personagens estabelecidos apresenta uma tarefa desafiadora para ALIPs, devido à falta de conjuntos de dados de personagens autênticos e métodos de avaliação sutis usando tais dados. Neste artigo, apresentamos CoSER, uma coleção de um conjunto de dados de alta qualidade, modelos abertos e um protocolo de avaliação para ALIPs eficazes de personagens estabelecidos. O conjunto de dados CoSER abrange 17.966 personagens de 771 livros renomados. Ele fornece diálogos autênticos com complexidades do mundo real, bem como diversos tipos de dados, como configurações de conversa, experiências de personagens e pensamentos internos. Inspirados na metodologia de atuação, introduzimos a atuação de circunstâncias dadas para treinar e avaliar ALIPs de interpretação de papéis, onde os GMLs retratam sequencialmente vários personagens em cenas de livros. Usando nosso conjunto de dados, desenvolvemos CoSER 8B e CoSER 70B, ou seja, GMLs de interpretação de papéis abertos avançados construídos nos modelos LLaMA-3.1. Experimentos extensivos demonstram o valor do conjunto de dados CoSER para treinamento, avaliação e recuperação de ALIPs. Além disso, o CoSER 70B exibe desempenho de ponta superando ou igualando o GPT-4o em nossa avaliação e em três benchmarks existentes, ou seja, alcançando 75,80% e 93,47% de precisão nos benchmarks InCharacter e LifeChoice, respectivamente.

MME-CoT: Avaliando a Cadeia de Pensamento em Modelos Multimodais Grandes para Qualidade, Robustez e Eficiência de Raciocínio
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Feb 13

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

Responder perguntas com a Cadeia de Pensamento (CoT) melhorou significativamente as capacidades de raciocínio dos Modelos de Linguagem Grandes (LLMs), no entanto, seu impacto nos Modelos Multimodais Grandes (LMMs) ainda carece de uma avaliação sistemática e investigação aprofundada. Neste artigo, apresentamos o MME-CoT, um benchmark especializado que avalia o desempenho de raciocínio CoT dos LMMs, abrangendo seis domínios: matemática, ciência, OCR, lógica, espaço-tempo e cenas gerais. Como o primeiro estudo abrangente nesta área, propomos uma suíte de avaliação abrangente que incorpora três métricas inovadoras que avaliam a qualidade, robustez e eficiência de raciocínio em um nível granular. Aproveitando dados de alta qualidade selecionados e uma estratégia de avaliação única, realizamos uma análise aprofundada dos LMMs de ponta, descobrindo várias percepções-chave: 1) Modelos com mecanismo de reflexão demonstram uma qualidade CoT superior, com Kimi k1.5 superando o GPT-4o e demonstrando os melhores resultados de qualidade; 2) A solicitação CoT frequentemente degrada o desempenho do LMM em tarefas com muita percepção, sugerindo um comportamento potencialmente prejudicial de excesso de pensamento; e 3) Embora a qualidade CoT seja alta, os LMMs com reflexão exibem uma ineficiência significativa tanto nas fases de resposta normal quanto de autocorreção. Esperamos que o MME-CoT sirva como base para o avanço do raciocínio multimodal nos LMMs. Página do Projeto: https://mmecot.github.io/

Explorando o Potencial de Arquiteturas sem Codificador em Modelos de Linguagem 3D.
Exploring the Potential of Encoder-free Architectures in 3D LMMs

Feb 13

ByYiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao

Arquiteturas sem codificador foram exploradas preliminarmente no domínio visual 2D, no entanto, permanece uma questão em aberto se elas podem ser aplicadas de forma eficaz em cenários de compreensão 3D. Neste artigo, apresentamos a primeira investigação abrangente sobre o potencial de arquiteturas sem codificador para superar os desafios dos Grandes Modelos Multimodais 3D (LMMs) baseados em codificador. Esses desafios incluem a falha em se adaptar a resoluções variadas de nuvens de pontos e as características dos pontos do codificador que não atendem às necessidades semânticas dos Grandes Modelos de Linguagem (LLMs). Identificamos aspectos-chave para os LMMs 3D removerem o codificador e permitirem que o LLM assuma o papel do codificador 3D: 1) Propomos a estratégia de Codificação Semântica incorporada ao LLM na fase de pré-treinamento, explorando os efeitos de várias perdas auto-supervisionadas de nuvem de pontos. E apresentamos a Perda Semântica Híbrida para extrair semântica de alto nível. 2) Introduzimos a estratégia de Agregação Geométrica Hierárquica na fase de ajuste de instruções. Isso incorpora viés indutivo nas camadas iniciais do LLM para focar nos detalhes locais das nuvens de pontos. Por fim, apresentamos o primeiro LMM 3D sem codificador, ENEL. Nosso modelo de 7B rivaliza com o modelo atual de ponta, ShapeLLM-13B, alcançando 55,0%, 50,92% e 42,7% nas tarefas de classificação, legenda e VQA, respectivamente. Nossos resultados demonstram que a arquitetura sem codificador é altamente promissora para substituir arquiteturas baseadas em codificador no campo da compreensão 3D. O código está disponível em https://github.com/Ivan-Tang-3D/ENEL

Raciocínio Lógico em Modelos de Linguagem de Grande Escala: Uma Pesquisa
Logical Reasoning in Large Language Models: A Survey

Feb 13

ByHanmeng Liu, Zhizhang Fu, Mengru Ding, Ruoxi Ning, Chaoli Zhang, Xiaozhang Liu, Yue Zhang

Com o surgimento de modelos avançados de raciocínio como o OpenAI o3 e o DeepSeek-R1, os grandes modelos de linguagem (LLMs) têm demonstrado notáveis capacidades de raciocínio. No entanto, sua habilidade de realizar um raciocínio lógico rigoroso permanece uma questão em aberto. Esta pesquisa sintetiza os avanços recentes em raciocínio lógico dentro dos LLMs, uma área crítica da pesquisa em IA. Ela delinea o escopo do raciocínio lógico nos LLMs, suas bases teóricas e os benchmarks usados para avaliar a proficiência de raciocínio. Analisamos as capacidades existentes em diferentes paradigmas de raciocínio - dedutivo, indutivo, abdutivo e analógico - e avaliamos estratégias para aprimorar o desempenho de raciocínio, incluindo ajustes centrados em dados, aprendizado por reforço, estratégias de decodificação e abordagens neuro-simbólicas. A revisão conclui com direções futuras, enfatizando a necessidade de uma exploração adicional para fortalecer o raciocínio lógico em sistemas de IA.

SQuARE: Motor de Raciocínio de Perguntas e Respostas Sequenciais para Melhoria da Cadeia de Pensamento em Modelos de Linguagem Grandes
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models

Feb 13

ByDaniel Fleischer, Moshe Berchansky, Gad Markovits, Moshe Wasserblat

No campo em rápida evolução do Processamento de Linguagem Natural, os Modelos de Linguagem Grandes (LLMs) são encarregados de desafios de raciocínio cada vez mais complexos. Métodos tradicionais como a indução de pensamento em cadeia têm mostrado promessa, mas frequentemente não conseguem aproveitar totalmente as capacidades de raciocínio de um modelo. Este artigo apresenta o SQuARE (Sequential Question Answering Reasoning Engine), uma técnica de indução inovadora projetada para melhorar o raciocínio por meio de um paradigma de auto-interrogação. Construindo sobre estruturas CoT, o SQuARE induz os modelos a gerar e resolver múltiplas perguntas auxiliares antes de abordar a consulta principal, promovendo uma exploração mais minuciosa de vários aspectos de um tópico. Nossas avaliações abrangentes, conduzidas com os modelos Llama 3 e GPT-4o em múltiplos conjuntos de dados de perguntas e respostas, demonstram que o SQuARE supera significativamente as induções tradicionais de CoT e os métodos existentes de reformulação e resposta. Ao decompor sistematicamente as consultas, o SQuARE avança as capacidades de raciocínio dos LLMs em tarefas de raciocínio. O código está publicamente disponível em https://github.com/IntelLabs/RAG-FiT/tree/square.

Tufão T1: Um Modelo Tailandês Aberto de Raciocínio
Typhoon T1: An Open Thai Reasoning Model

Feb 13

ByPittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai, Kunat Pipatanakul

Este artigo apresenta o Typhoon T1, um esforço aberto para desenvolver um modelo tailandês de raciocínio aberto. Um modelo de raciocínio é um tipo relativamente novo de modelo generativo construído sobre grandes modelos de linguagem (LLMs). Um modelo de raciocínio gera uma longa cadeia de pensamento antes de chegar a uma resposta final, uma abordagem que se mostrou melhorar o desempenho em tarefas complexas. No entanto, os detalhes sobre o desenvolvimento de tal modelo são limitados, especialmente para modelos de raciocínio que podem gerar traços em um idioma com recursos limitados. O Typhoon T1 apresenta um esforço aberto que mergulha nos detalhes do desenvolvimento de um modelo de raciocínio de forma mais econômica, aproveitando o ajuste fino supervisionado usando conjuntos de dados abertos, em vez de aprendizado por reforço. Este artigo compartilha os detalhes sobre a geração e treinamento de dados sintéticos, bem como nosso conjunto de dados e pesos do modelo. Além disso, fornecemos insights obtidos com o desenvolvimento de um modelo de raciocínio que generaliza entre domínios e é capaz de gerar traços de raciocínio em um idioma com recursos limitados, utilizando o tailandês como exemplo. Esperamos que este esforço aberto forneça uma base para pesquisas futuras neste campo.

mmE5: Melhorando os Incorporamentos Multimodais Multilíngues por meio de Dados Sintéticos de Alta Qualidade
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

Feb 12

ByHaonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou

Os modelos de incorporação multimodal têm recebido significativa atenção por sua capacidade de mapear dados de diferentes modalidades, como texto e imagens, em um espaço de representação unificado. No entanto, a limitação de dados multimodais rotulados frequentemente prejudica o desempenho da incorporação. Abordagens recentes têm utilizado a síntese de dados para lidar com esse problema, no entanto, a qualidade dos dados sintéticos permanece um gargalo crítico. Neste trabalho, identificamos três critérios para dados multimodais sintéticos de alta qualidade. Primeiramente, a amplitude garante que os dados gerados cubram diversas tarefas e modalidades, tornando-os aplicáveis a vários cenários subsequentes. Em segundo lugar, o alinhamento robusto entre modalidades diferentes torna-as semanticamente consistentes. Em terceiro lugar, a alta fidelidade garante que os dados sintéticos mantenham detalhes realistas para aprimorar sua confiabilidade. Guiados por esses princípios, sintetizamos conjuntos de dados que: (1) abrangem uma ampla gama de tarefas, combinações de modalidades e idiomas, (2) são gerados por meio de um processo de pensamento profundo em uma única passagem de um grande modelo de linguagem multimodal e (3) incorporam imagens do mundo real com textos precisos e relevantes, garantindo fidelidade por meio de autoavaliação e refinamento. Aproveitando esses conjuntos de dados sintéticos e rotulados de alta qualidade, treinamos um modelo E5 multimodal multilíngue mmE5. Experimentos extensivos demonstram que o mmE5 alcança um desempenho de ponta no Benchmark MMEB e um desempenho multilíngue superior no benchmark XTD. Nossos códigos, conjuntos de dados e modelos estão disponíveis em https://github.com/haon-chen/mmE5.

CoT-Valve: Ajuste de Cadeia de Pensamento Comprimível por Comprimento
CoT-Valve: Length-Compressible Chain-of-Thought Tuning

Feb 13

ByXinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang

A técnica Chain-of-Thought melhora significativamente a capacidade de raciocínio de um modelo, mas também acarreta um aumento considerável nos custos de inferência devido a cadeias longas. Com a observação de que o caminho de raciocínio pode ser facilmente comprimido em tarefas simples, mas enfrenta dificuldades em tarefas complexas, exploramos a viabilidade de controlar elasticamente o comprimento dos caminhos de raciocínio com apenas um modelo, reduzindo assim o overhead de inferência de modelos de raciocínio dinamicamente com base na dificuldade da tarefa. Introduzimos uma nova estratégia de ajuste e inferência chamada CoT-Valve, projetada para permitir que os modelos gerem cadeias de raciocínio de comprimentos variados. Para alcançar isso, propomos identificar uma direção no espaço de parâmetros que, quando manipulada, pode controlar efetivamente o comprimento do CoT gerado. Além disso, demonstramos que essa propriedade é valiosa para comprimir a cadeia de raciocínio. Construímos conjuntos de dados com cadeias de longas a curtas para as mesmas perguntas e exploramos duas estratégias aprimoradas para o CoT-Valve: (1) um método de ajuste de CoT precisamente compressível e (2) uma abordagem progressiva de compressão do comprimento da cadeia. Nossos experimentos mostram que o CoT-Valve permite com sucesso a controlabilidade e compressibilidade da cadeia, apresentando melhor desempenho do que o controle baseado em prompts. Aplicamos esse método ao QwQ-32B-Preview, reduzindo as cadeias de raciocínio no GSM8K de 741 para 225 tokens com uma leve queda de desempenho (95,07% para 94,92%) e no AIME de 6827 para 4629 tokens, com apenas uma resposta incorreta adicional.

Raciocínio Matemático em Modelos de Linguagem de Grande Escala: Avaliando Erros Lógicos e Aritméticos em uma Ampla Gama Numérica
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

Feb 12

BySafal Shrestha, Minwu Kim, Keith Ross

O raciocínio matemático em Modelos de Linguagem de Grande Escala (LLMs) é frequentemente avaliado usando benchmarks com intervalos numéricos limitados, falhando em refletir a resolução de problemas do mundo real em diversas escalas. Além disso, a maioria dos métodos de avaliação existentes apenas comparam as saídas do modelo com respostas verdadeiras, obscurecendo insights nos processos de raciocínio. Para lidar com essas limitações, introduzimos o GSM-Ranges, um gerador de conjuntos de dados derivado do GSM8K que perturba sistematicamente os valores numéricos em problemas matemáticos para avaliar a robustez do modelo em diferentes escalas numéricas. Além disso, propomos uma metodologia de avaliação inovadora que distingue entre erros lógicos e não lógicos, oferecendo uma avaliação mais precisa dos processos de raciocínio além da precisão computacional. Nossos experimentos com vários modelos revelam um aumento significativo nas taxas de erros lógicos - de até 14 pontos percentuais - à medida que a complexidade numérica aumenta, demonstrando uma fraqueza geral no raciocínio com valores numéricos fora da distribuição. Além disso, enquanto os modelos demonstram alta precisão em tarefas aritméticas isoladas, seu desempenho deteriora substancialmente quando os cálculos são incorporados em problemas de palavras. Essas descobertas fornecem uma avaliação abrangente das capacidades de raciocínio matemático dos LLMs e orientam futuras direções de pesquisa para melhorar a generalização numérica em modelos de linguagem.

DexTrack: Rumo ao Controle Neural Generalizável para Rastreamento de Manipulação Destra a partir de Referências Humanas
DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

Feb 13

ByXueyi Liu, Jianibieke Adalibieke, Qianwei Han, Yuzhe Qin, Li Yi

Abordamos o desafio de desenvolver um controlador de rastreamento neural generalizável para manipulação habilidosa a partir de referências humanas. Este controlador tem como objetivo gerenciar uma mão de robô habilidosa para manipular objetos diversos para vários propósitos definidos por interações cinemáticas humano-objeto. Desenvolver tal controlador é complicado devido à dinâmica de contato intricada da manipulação habilidosa e à necessidade de adaptabilidade, generalização e robustez. Métodos atuais de aprendizado por reforço e otimização de trajetória frequentemente ficam aquém devido à sua dependência de recompensas específicas da tarefa ou modelos precisos do sistema. Introduzimos uma abordagem que cura demonstrações bem-sucedidas em grande escala de rastreamento de robô, compostas por pares de referências humanas e ações de robô, para treinar um controlador neural. Utilizando um ciclo de dados, aprimoramos iterativamente o desempenho do controlador, bem como o número e a qualidade das demonstrações bem-sucedidas de rastreamento. Exploramos as demonstrações de rastreamento disponíveis e integramos cuidadosamente o aprendizado por reforço e o aprendizado por imitação para impulsionar o desempenho do controlador em ambientes dinâmicos. Ao mesmo tempo, para obter demonstrações de rastreamento de alta qualidade, otimizamos individualmente o rastreamento por trajetória, alavancando o controlador de rastreamento aprendido em um método de otimização homotópica. A otimização homotópica, imitando uma cadeia de pensamento, auxilia na resolução de problemas desafiadores de rastreamento de trajetória para aumentar a diversidade das demonstrações. Demonstramos nosso sucesso ao treinar um controlador neural generalizável e avaliá-lo tanto em simulação quanto no mundo real. Nosso método alcança mais de 10% de melhoria nas taxas de sucesso em comparação com as bases líderes. O site do projeto com resultados animados está disponível em https://meowuu7.github.io/DexTrack/.

Criador de VFX: Geração de Efeito Visual Animado com Transformador de Difusão Controlável
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

Feb 9

ByXinyu Liu, Ailing Zeng, Wei Xue, Harry Yang, Wenhan Luo, Qifeng Liu, Yike Guo

A criação de magia e ilusões é um dos aspectos mais emocionantes da produção cinematográfica, com efeitos visuais (VFX) atuando como a força motriz por trás de experiências cinematográficas inesquecíveis. Enquanto avanços recentes em inteligência artificial generativa impulsionaram o progresso na síntese genérica de imagens e vídeos, o domínio da geração de VFX controláveis permanece relativamente pouco explorado. Neste trabalho, propomos um novo paradigma para a geração de VFX animados como animação de imagens, onde efeitos dinâmicos são gerados a partir de descrições textuais amigáveis ao usuário e imagens de referência estáticas. Nosso trabalho apresenta duas contribuições principais: (i) Open-VFX, o primeiro conjunto de dados de vídeo de VFX de alta qualidade abrangendo 15 categorias de efeitos diversas, anotado com descrições textuais, máscaras de segmentação de instâncias para condicionamento espacial e timestamps de início-fim para controle temporal. (ii) VFX Creator, um framework de geração de VFX controláveis simples, porém eficaz, baseado em um Transformador de Difusão de Vídeo. O modelo incorpora um adaptador LoRA controlável espacial e temporal, exigindo vídeos de treinamento mínimos. Especificamente, um módulo de controle de máscara plug-and-play permite manipulação espacial em nível de instância, enquanto timestamps de movimento de início-fim tokenizados incorporados no processo de difusão, juntamente com o codificador de texto, permitem controle temporal preciso sobre o tempo e ritmo dos efeitos. Experimentos extensivos no conjunto de testes Open-VFX demonstram a superioridade do sistema proposto na geração de efeitos realistas e dinâmicos, alcançando desempenho de ponta e capacidade de generalização tanto em controlabilidade espacial quanto temporal. Além disso, introduzimos uma métrica especializada para avaliar a precisão do controle temporal. Ao unir técnicas tradicionais de VFX com abordagens generativas, o VFX Creator desbloqueia novas possibilidades para a geração eficiente e de alta qualidade de efeitos de vídeo, tornando os VFX avançados acessíveis a um público mais amplo.

3CAD: Um Conjunto de Dados de Produtos 3C do Mundo Real em Grande Escala para Anomalia Não Supervisionada
3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly

Feb 9

ByEnquan Yang, Peng Xing, Hanyang Sun, Wenbo Guo, Yuanwei Ma, Zechao Li, Dan Zeng

A detecção de anomalias industrial avança graças a conjuntos de dados como MVTec-AD e VisA. No entanto, eles sofrem de limitações em termos do número de amostras de defeitos, tipos de defeitos e disponibilidade de cenas do mundo real. Essas restrições impedem os pesquisadores de explorar ainda mais o desempenho da detecção industrial com maior precisão. Para isso, propomos um novo conjunto de dados de detecção de anomalias em larga escala chamado 3CAD, derivado de linhas de produção 3C reais. Especificamente, o 3CAD proposto inclui oito tipos diferentes de peças fabricadas, totalizando 27.039 imagens de alta resolução rotuladas com anomalias ao nível de pixel. As principais características do 3CAD são que ele abrange regiões anômalas de diferentes tamanhos, múltiplos tipos de anomalias e a possibilidade de múltiplas regiões anômalas e múltiplos tipos de anomalias por imagem anômala. Este é o maior e primeiro conjunto de dados de detecção de anomalias dedicado ao controle de qualidade de produtos 3C para exploração e desenvolvimento pela comunidade. Enquanto isso, introduzimos um framework simples, porém eficaz, para detecção de anomalias não supervisionada: um paradigma de detecção de Coarse-to-Fine com Orientação de Recuperação (CFRG). Para detectar pequenas anomalias de defeito, o CFRG proposto utiliza um paradigma de detecção coarse-to-fine. Especificamente, utilizamos um modelo de destilação heterogêneo para localização grosseira e depois localização fina por meio de um modelo de segmentação. Além disso, para capturar melhor padrões normais, introduzimos características de recuperação como orientação. Por fim, relatamos os resultados de nosso framework CFRG e métodos populares de detecção de anomalias no conjunto de dados 3CAD, demonstrando forte competitividade e fornecendo um benchmark altamente desafiador para promover o desenvolvimento do campo de detecção de anomalias. Os dados e o código estão disponíveis em: https://github.com/EnquanYang2022/3CAD.

Campos de Radiação Latente com Representações 2D Conscientes de 3D
Latent Radiance Fields with 3D-aware 2D Representations

Feb 13

ByChaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang

A reconstrução latente 3D tem demonstrado grande potencial no aprimoramento da compreensão semântica 3D e na geração 3D ao destilar características 2D no espaço 3D. No entanto, as abordagens existentes enfrentam dificuldades com a lacuna de domínio entre o espaço de características 2D e as representações 3D, resultando em desempenho de renderização degradado. Para enfrentar esse desafio, propomos uma estrutura inovadora que integra a consciência 3D ao espaço latente 2D. A estrutura consiste em três etapas: (1) um método de auto codificação consciente da correspondência que melhora a consistência 3D das representações latentes 2D, (2) um campo de radiação latente (LRF) que eleva essas representações 2D conscientes 3D para o espaço 3D, e (3) uma estratégia de alinhamento VAE-Campo de Radiação (VAE-RF) que melhora a decodificação de imagens a partir das representações 2D renderizadas. Experimentos extensivos demonstram que nosso método supera as abordagens de reconstrução latente 3D mais avançadas em termos de desempenho de síntese e generalização entre conjuntos de dados em diversas cenas internas e externas. Até onde sabemos, este é o primeiro trabalho que mostra que as representações de campo de radiação construídas a partir de representações latentes 2D podem produzir desempenho de reconstrução 3D fotorrealista.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

O Papagaio Estocástico no Ombro do LLM: Uma Avaliação Sumativa da Compreensão de Conceitos Físicos
The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding

Feb 13

ByMo Yu, Lemao Liu, Junjie Wu, Tsz Ting Chung, Shunchi Zhang, Jiangnan Li, Dit-Yan Yeung, Jie Zhou

191

InfiniteHiP: Ampliando o Contexto do Modelo de Linguagem até 3 Milhões de Tokens em uma Única GPU
InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU

Feb 13

ByHeejun Lee, Geon Park, Jaduk Suh, Sung Ju Hwang

148

Skrr: Camadas Codificadoras de Texto Skip e Reutilização para Geração Eficiente de Texto para Imagem
Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation

Feb 12

ByHoigi Seo, Wongi Jeong, Jae-sun Seo, Se Young Chun

TripoSG: Síntese de Forma 3D de Alta Fidelidade usando Modelos de Fluxo Retificado em Grande Escala
TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models

Feb 10

ByYangguang Li, Zi-Xin Zou, Zexiang Liu, Dehu Wang, Yuan Liang, Zhipeng Yu, Xingchao Liu, Yuan-Chen Guo, Ding Liang, Wanli Ouyang, Yan-Pei Cao

AutoCitação: Alinhamento Auto-supervisionado para Atribuição de Contexto em Modelos de Linguagem Grandes
SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models

Feb 13

ByYung-Sung Chuang, Benjamin Cohen-Wang, Shannon Zejiang Shen, Zhaofeng Wu, Hu Xu, Xi Victoria Lin, James Glass, Shang-Wen Li, Wen-tau Yih

EmbodiedBench: Avaliação Abrangente de Modelos de Linguagem Multimodais de Grande Escala para Agentes Encarnados Orientados pela Visão
EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents

Feb 13

ByRui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, Heng Ji, Huan Zhang, Tong Zhang

Este Modelo Também Pode Reconhecer Cães? Busca de Modelo Zero-Shot a partir de Pesos
Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights

Feb 13

ByJonathan Kahana, Or Nathan, Eliahu Horwitz, Yedid Hoshen

Uma Receita Aberta: Adaptando Modelos de Linguagem Específicos para um Modelo de Raciocínio em Um Dia através da Fusão de Modelos
An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging

Feb 13

ByKunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

CoSER: Coordenação da Simulação de Personas Baseada em LLM de Papéis Estabelecidos
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles

Feb 13

ByXintao Wang, Heng Wang, Yifei Zhang, Xinfeng Yuan, Rui Xu, Jen-tse Huang, Siyu Yuan, Haoran Guo, Jiangjie Chen, Wei Wang, Yanghua Xiao, Shuchang Zhou

MME-CoT: Avaliando a Cadeia de Pensamento em Modelos Multimodais Grandes para Qualidade, Robustez e Eficiência de Raciocínio
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Feb 13

ByDongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

Explorando o Potencial de Arquiteturas sem Codificador em Modelos de Linguagem 3D.
Exploring the Potential of Encoder-free Architectures in 3D LMMs

Feb 13

ByYiwen Tang, Zoey Guo, Zhuhao Wang, Ray Zhang, Qizhi Chen, Junli Liu, Delin Qu, Zhigang Wang, Dong Wang, Xuelong Li, Bin Zhao

Raciocínio Lógico em Modelos de Linguagem de Grande Escala: Uma Pesquisa
Logical Reasoning in Large Language Models: A Survey

Feb 13

ByHanmeng Liu, Zhizhang Fu, Mengru Ding, Ruoxi Ning, Chaoli Zhang, Xiaozhang Liu, Yue Zhang

SQuARE: Motor de Raciocínio de Perguntas e Respostas Sequenciais para Melhoria da Cadeia de Pensamento em Modelos de Linguagem Grandes
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models

Feb 13

ByDaniel Fleischer, Moshe Berchansky, Gad Markovits, Moshe Wasserblat

Tufão T1: Um Modelo Tailandês Aberto de Raciocínio
Typhoon T1: An Open Thai Reasoning Model

Feb 13

ByPittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai, Kunat Pipatanakul

mmE5: Melhorando os Incorporamentos Multimodais Multilíngues por meio de Dados Sintéticos de Alta Qualidade
mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data

Feb 12

ByHaonan Chen, Liang Wang, Nan Yang, Yutao Zhu, Ziliang Zhao, Furu Wei, Zhicheng Dou

CoT-Valve: Ajuste de Cadeia de Pensamento Comprimível por Comprimento
CoT-Valve: Length-Compressible Chain-of-Thought Tuning

Feb 13

ByXinyin Ma, Guangnian Wan, Runpeng Yu, Gongfan Fang, Xinchao Wang

Raciocínio Matemático em Modelos de Linguagem de Grande Escala: Avaliando Erros Lógicos e Aritméticos em uma Ampla Gama Numérica
Mathematical Reasoning in Large Language Models: Assessing Logical and Arithmetic Errors across Wide Numerical Ranges

Feb 12

BySafal Shrestha, Minwu Kim, Keith Ross

DexTrack: Rumo ao Controle Neural Generalizável para Rastreamento de Manipulação Destra a partir de Referências Humanas
DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References

Feb 13

ByXueyi Liu, Jianibieke Adalibieke, Qianwei Han, Yuzhe Qin, Li Yi

Criador de VFX: Geração de Efeito Visual Animado com Transformador de Difusão Controlável
VFX Creator: Animated Visual Effect Generation with Controllable Diffusion Transformer

Feb 9

ByXinyu Liu, Ailing Zeng, Wei Xue, Harry Yang, Wenhan Luo, Qifeng Liu, Yike Guo

3CAD: Um Conjunto de Dados de Produtos 3C do Mundo Real em Grande Escala para Anomalia Não Supervisionada
3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly

Feb 9

ByEnquan Yang, Peng Xing, Hanyang Sun, Wenbo Guo, Yuanwei Ma, Zechao Li, Dan Zeng

Campos de Radiação Latente com Representações 2D Conscientes de 3D
Latent Radiance Fields with 3D-aware 2D Representations

Feb 13

ByChaoyi Zhou, Xi Liu, Feng Luo, Siyu Huang