ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

WALL-E: Alinhamento Mundial por Aprendizado de Regras Melhora Agentes LLM Baseados em Modelo Mundial
WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents

Oct 9
BySiyu Zhou, Tianyi Zhou, Yijun Yang, Guodong Long, Deheng Ye, Jing Jiang, Chengqi Zhang
51
3

Podem os grandes modelos de linguagem (LLMs) servir diretamente como poderosos modelos mundiais para agentes baseados em modelos? Embora existam lacunas entre o conhecimento prévio dos LLMs e a dinâmica do ambiente especificado, nosso estudo revela que essas lacunas podem ser superadas alinhando um LLM com seu ambiente implantado e esse "alinhamento mundial" pode ser alcançado de forma eficiente por meio da aprendizagem de regras nos LLMs. Dado o rico conhecimento prévio dos LLMs, apenas algumas regras adicionais são suficientes para alinhar as previsões do LLM com a dinâmica do ambiente especificado. Para isso, propomos uma abordagem neuro-simbólica para aprender essas regras sem gradientes por meio dos LLMs, induzindo, atualizando e podando regras com base em comparações entre trajetórias exploradas pelo agente e previsões do modelo mundial. O modelo mundial resultante é composto pelo LLM e pelas regras aprendidas. Nosso agente LLM incorporado "WALL-E" é construído com base no controle preditivo do modelo (MPC). Ao otimizar ações de antecipação com base no modelo mundial preciso, o MPC melhora significativamente a eficiência da exploração e da aprendizagem. Comparado aos agentes LLM existentes, o raciocínio do WALL-E requer apenas algumas regras principais em vez de trajetórias em buffer verbosas incluídas na entrada do LLM. Em desafios de mundo aberto no Minecraft e ALFWorld, o WALL-E alcança taxas de sucesso mais altas do que os métodos existentes, com menores custos de tempo de replanejamento e número de tokens usados para o raciocínio. No Minecraft, o WALL-E supera as linhas de base em 15-30% na taxa de sucesso, enquanto custa de 8 a 20 rodadas de replanejamento a menos e apenas 60-80% dos tokens. No ALFWorld, sua taxa de sucesso atinge um novo recorde de 95% após apenas 6 iterações.

2

MathCoder2: Melhor Raciocínio Matemático a partir de Pré-treinamento Contínuo em Código Matemático Traduzido pelo Modelo
MathCoder2: Better Math Reasoning from Continued Pretraining on Model-translated Mathematical Code

Oct 10
ByZimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li
47
2

Foi demonstrado que o código é eficaz em aprimorar as habilidades de raciocínio matemático de grandes modelos de linguagem devido à sua precisão e exatidão. Trabalhos anteriores envolvendo pré-treinamento matemático contínuo frequentemente incluem código que utiliza pacotes relacionados à matemática, os quais são principalmente projetados para áreas como engenharia, aprendizado de máquina, processamento de sinais ou teste de módulos, em vez de estarem diretamente focados no raciocínio matemático. Neste artigo, introduzimos um método inovador para gerar código matemático acompanhado de passos de raciocínio correspondentes para pré-treinamento contínuo. Nossa abordagem começa com a construção de um conjunto de dados de pré-treinamento matemático contínuo de alta qualidade, incorporando dados da web relacionados à matemática, código usando pacotes matemáticos, livros didáticos de matemática e dados sintéticos. Em seguida, construímos passos de raciocínio extraindo expressões em LaTeX, as condições necessárias para as expressões e os resultados das expressões do conjunto de dados coletado anteriormente. Com base nessas informações extraídas, geramos código correspondente para capturar com precisão o processo de raciocínio matemático. Anexando o código gerado a cada passo de raciocínio resulta em dados compostos por passos de raciocínio em linguagem natural emparelhados com seu código correspondente. Combinando esses dados com o conjunto de dados original resulta em um corpus de pré-treinamento matemático de alto desempenho de 19,2 bilhões de tokens, ao qual denominamos MathCode-Pile. Treinar vários modelos base populares com este corpus melhora significativamente suas habilidades matemáticas, levando à criação da família de modelos MathCoder2. Todo o nosso código de processamento de dados e treinamento é de código aberto, garantindo total transparência e fácil reprodutibilidade de todo o processo de coleta de dados e treinamento. O código está disponível em https://github.com/mathllm/MathCoder2.

3

MLLM como Recuperador: Aprendizado Interativo de Recuperação Multimodal para Agentes Incorporados
MLLM as Retriever: Interactively Learning Multimodal Retrieval for Embodied Agents

Oct 4
ByJunpeng Yue, Xinru Xu, Börje F. Karlsson, Zongqing Lu
36
2

Agentes MLLM demonstram potencial para tarefas corporificadas complexas ao recuperar dados de trajetória multimodais relevantes para a tarefa. No entanto, os métodos de recuperação atuais focam principalmente em similaridades de nível superficial de pistas textuais ou visuais em trajetórias, negligenciando sua eficácia para a tarefa específica em questão. Para abordar esse problema, propomos um método inovador, MLLM como Recuperador (MART), que aprimora o desempenho de agentes corporificados ao utilizar dados de interação para ajustar um recuperador MLLM com base em aprendizado de preferência, de modo que o recuperador considere totalmente a eficácia das trajetórias e as priorize para tarefas não vistas. Também introduzimos Abstração de Trajetória, um mecanismo que aproveita as capacidades de sumarização dos MLLMs para representar trajetórias com menos tokens, preservando informações-chave, permitindo que os agentes compreendam melhor marcos na trajetória. Resultados experimentais em diversos ambientes demonstram que nosso método melhora significativamente as taxas de sucesso da tarefa em cenas não vistas em comparação com métodos de referência. Este trabalho apresenta um novo paradigma para recuperação multimodal em agentes corporificados, ajustando um MLLM de propósito geral como o recuperador para avaliar a eficácia da trajetória. Todos os conjuntos de tarefas de referência e modificações de código do simulador para espaços de ação e observação serão disponibilizados.

4

PrefixQuant: Quantização Estática Supera a Dinâmica através de Valores Atípicos Prefixados em LLMs
PrefixQuant: Static Quantization Beats Dynamic through Prefixed Outliers in LLMs

Oct 7
ByMengzhao Chen, Yi Liu, Jiahao Wang, Yi Bin, Wenqi Shao, Ping Luo
33
2

A quantização é essencial para implementar Modelos de Linguagem Grandes (LLMs) ao aprimorar a eficiência de memória e a velocidade de inferência. Os métodos existentes para quantização de ativação abordam principalmente os valores discrepantes por canal, muitas vezes negligenciando os valores discrepantes por token, o que leva à dependência de uma quantização dinâmica por token custosa. Para lidar com isso, introduzimos o PrefixQuant, uma técnica inovadora que isola tokens discrepantes offline sem a necessidade de retrabalho. Especificamente, o PrefixQuant identifica tokens discrepantes de alta frequência e os prefixa no cache KV, evitando a geração de tokens discrepantes durante a inferência e simplificando a quantização. Até onde sabemos, o PrefixQuant é o primeiro a permitir uma quantização estática por tensor eficiente para superar a quantização dinâmica por token cara. Por exemplo, no Llama-3-8B W4A4KV4 (peso de 4 bits, ativação de 4 bits e cache KV de 4 bits), o PrefixQuant com quantização estática por tensor alcança uma perplexidade de 7,43 no WikiText2 e uma precisão média de 71,08% em 5 tarefas de raciocínio de senso comum, superando métodos anteriores de quantização dinâmica por token como o QuaRot com uma melhoria de 0,98 na perplexidade e +5,98 pontos na precisão. Além disso, a velocidade de inferência dos modelos quantizados W4A4 usando o PrefixQuant é de 1,60x a 2,81x mais rápida do que os modelos FP16 e supera os modelos QuaRot em 1,2x a 1,3x. Nosso código está disponível em https://github.com/ChenMnZ/PrefixQuant.

5

Avaliação da Geração de Fluxo de Trabalho Agente.
Benchmarking Agentic Workflow Generation

Oct 10
ByShuofei Qiao, Runnan Fang, Zhisong Qiu, Xiaobin Wang, Ningyu Zhang, Yong Jiang, Pengjun Xie, Fei Huang, Huajun Chen
29
2

Os Modelos de Linguagem de Grande Escala (LLMs), com sua capacidade excepcional de lidar com uma ampla gama de tarefas, impulsionaram avanços significativos no enfrentamento de tarefas de raciocínio e planejamento, em que a decomposição de problemas complexos em fluxos de trabalho executáveis é um passo crucial nesse processo. Os frameworks existentes de avaliação de fluxo de trabalho geralmente se concentram apenas no desempenho holístico ou sofrem de limitações como cobertura de cenários restrita, estruturas de fluxo de trabalho simplistas e padrões de avaliação frouxos. Com esse propósito, apresentamos o WorFBench, um benchmark unificado de geração de fluxo de trabalho com cenários multifacetados e estruturas de fluxo de trabalho em grafo intrincadas. Além disso, apresentamos o WorFEval, um protocolo de avaliação sistemático que utiliza algoritmos de correspondência de subsequências e subgrafos para quantificar com precisão as capacidades de geração de fluxo de trabalho do agente LLM. Através de avaliações abrangentes em diferentes tipos de LLMs, descobrimos lacunas distintas entre as capacidades de planejamento de sequência e de grafo dos agentes LLM, com até mesmo o GPT-4 exibindo uma lacuna de cerca de 15%. Também treinamos dois modelos de código aberto e avaliamos suas capacidades de generalização em tarefas retidas. Além disso, observamos que os fluxos de trabalho gerados podem aprimorar tarefas subsequentes, permitindo que alcancem desempenho superior com menos tempo durante a inferência. O código e o conjunto de dados estarão disponíveis em https://github.com/zjunlp/WorFBench.

6

Agente S: Um Framework Agente Aberto que Utiliza Computadores Como um Humano
Agent S: An Open Agentic Framework that Uses Computers Like a Human

Oct 10
BySaaket Agashe, Jiuzhou Han, Shuyu Gan, Jiachen Yang, Ang Li, Xin Eric Wang
26
2

Apresentamos o Agente S, um framework agente aberto que possibilita interação autônoma com computadores por meio de uma Interface Gráfica do Usuário (GUI), com o objetivo de transformar a interação humano-computador automatizando tarefas complexas e multi-etapas. O Agente S visa lidar com três desafios-chave na automação de tarefas computacionais: aquisição de conhecimento específico do domínio, planejamento em horizontes de tarefa longos e lidar com interfaces dinâmicas e não uniformes. Para isso, o Agente S introduz planejamento hierárquico aumentado por experiência, que aprende a partir de busca de conhecimento externo e recuperação de experiência interna em múltiplos níveis, facilitando o planejamento eficiente de tarefas e execução de subtarefas. Além disso, emprega uma Interface Agente-Computador (IAC) para elicitar melhor as capacidades de raciocínio e controle de agentes de GUI com base em Modelos de Linguagem Multimodal Grande (MLLMs). A avaliação no benchmark OSWorld mostra que o Agente S supera a linha de base em 9,37% na taxa de sucesso (uma melhoria relativa de 83,6%) e alcança um novo estado da arte. Uma análise abrangente destaca a eficácia dos componentes individuais e fornece insights para melhorias futuras. Além disso, o Agente S demonstra ampla generalizabilidade para diferentes sistemas operacionais em um novo benchmark WindowsAgentArena recém-lançado. Código disponível em https://github.com/simular-ai/Agent-S.

7

DART: Transformer Autoregressivo de Desnvolvimento para Geração Escalável de Texto-para-Imagem
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation

Oct 10
ByJiatao Gu, Yuyang Wang, Yizhe Zhang, Qihang Zhang, Dinghuai Zhang, Navdeep Jaitly, Josh Susskind, Shuangfei Zhai
26
2

Os modelos de difusão tornaram-se a abordagem dominante para geração visual. Eles são treinados através da remoção de ruído de um processo Markoviano que gradualmente adiciona ruído à entrada. Argumentamos que a propriedade Markoviana limita a capacidade dos modelos de utilizar plenamente a trajetória de geração, levando a ineficiências durante o treinamento e inferência. Neste artigo, propomos DART, um modelo baseado em transformadores que unifica autoregressivo (AR) e difusão dentro de um framework não Markoviano. DART remove iterativamente patches de imagem espacialmente e espectralmente usando um modelo AR com a mesma arquitetura dos modelos de linguagem padrão. DART não depende de quantização de imagem, permitindo modelagem de imagem mais eficaz mantendo a flexibilidade. Além disso, DART treina de forma integrada com dados de texto e imagem em um modelo unificado. Nossa abordagem demonstra desempenho competitivo em tarefas de geração condicionada por classe e texto-para-imagem, oferecendo uma alternativa escalável e eficiente aos modelos de difusão tradicionais. Através deste framework unificado, DART estabelece um novo referencial para síntese de imagem escalável e de alta qualidade.

8

DICE: Inversão Discreta Permitindo Edição Controlável para Difusão Multinomial e Modelos Generativos Mascaramentos
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

Oct 10
ByXiaoxiao He, Ligong Han, Quan Dao, Song Wen, Minhao Bai, Di Liu, Han Zhang, Martin Renqiang Min, Felix Juefei-Xu, Chaowei Tan, Bo Liu, Kang Li, Hongdong Li, Junzhou Huang, Faez Ahmed, Akash Srivastava, Dimitris Metaxas
19
2

Os modelos de difusão discreta têm obtido sucesso em tarefas como geração de imagens e modelagem de linguagem mascarada, mas enfrentam limitações na edição de conteúdo controlada. Apresentamos o DICE (Inversão Discreta para Edição Controlada), a primeira abordagem que possibilita a inversão precisa para modelos de difusão discreta, incluindo difusão multinomial e modelos generativos mascarados. Ao gravar sequências de ruído e padrões de mascaramento durante o processo de difusão reversa, o DICE possibilita a reconstrução precisa e a edição flexível de dados discretos sem a necessidade de máscaras predefinidas ou manipulação de atenção. Demonstramos a eficácia do DICE em domínios de imagens e texto, avaliando-o em modelos como VQ-Diffusion, Paella e RoBERTa. Nossos resultados mostram que o DICE preserva alta fidelidade dos dados enquanto aprimora as capacidades de edição, oferecendo novas oportunidades para manipulação de conteúdo detalhada em espaços discretos. Para acessar a página do projeto, visite https://hexiaoxiao-cs.github.io/DICE/.

9

Difusão Retificada: Retidão Não é Necessária em Fluxo Retificado
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow

Oct 9
ByFu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li
18
3

Os modelos de difusão melhoraram significativamente a geração visual, mas são prejudicados pela lentidão de geração devido à natureza computacionalmente intensiva da resolução de EDOs generativas. O fluxo retificado, uma solução amplamente reconhecida, melhora a velocidade de geração endireitando o caminho da EDO. Seus principais componentes incluem: 1) o uso da forma de difusão de correspondência de fluxo, 2) a utilização de previsão em negrito v-prediction e 3) a realização de retificação (também conhecida como refluxo). Neste artigo, argumentamos que o sucesso da retificação reside principalmente no uso de um modelo de difusão pré-treinado para obter pares correspondentes de ruído e amostras, seguido de um retrabalho com esses pares de ruído-amostra correspondentes. Com base nisso, os componentes 1) e 2) são desnecessários. Além disso, destacamos que a retidão não é um alvo de treinamento essencial para a retificação; ao invés disso, é um caso específico de modelos de correspondência de fluxo. O alvo de treinamento mais crítico é alcançar um caminho de EDO aproximado de primeira ordem, que é inherentemente curvo para modelos como DDPM e Sub-VP. Com base nessa percepção, propomos a Difusão Retificada, que generaliza o espaço de design e o escopo de aplicação da retificação para abranger a categoria mais ampla de modelos de difusão, em vez de ser restrito a modelos de correspondência de fluxo. Validamos nosso método no Stable Diffusion v1-5 e no Stable Diffusion XL. Nosso método não apenas simplifica significativamente o procedimento de treinamento de trabalhos anteriores baseados em fluxo retificado (por exemplo, InstaFlow), mas também alcança um desempenho superior com um custo de treinamento ainda menor. Nosso código está disponível em https://github.com/G-U-N/Rectified-Diffusion.

10

GLOV: Modelos de Linguagem Grandes Guiados como Otimizadores Implícitos para Visão
GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models

Oct 8
ByM. Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James Glass
16
2

Neste trabalho, propomos um método inovador (GLOV) que permite que Modelos de Linguagem Grandes (LLMs) atuem como Otimizadores implícitos para Modelos de Visão-Linguagem (VLMs) a fim de aprimorar tarefas de visão subsequentes. Nosso GLOV meta-solicita um LLM com a descrição da tarefa subsequente, consultando-o para obter prompts adequados para VLMs (por exemplo, para classificação de zero-shot com CLIP). Esses prompts são classificados de acordo com uma medida de pureza obtida por meio de uma função de adequação. Em cada etapa de otimização respectiva, os prompts classificados são alimentados como exemplos em contexto (com suas precisões) para equipar o LLM com o conhecimento do tipo de prompts de texto preferidos pelo VLM subsequente. Além disso, também direcionamos explicitamente o processo de geração do LLM em cada etapa de otimização, adicionando especificamente um vetor de diferença de deslocamento das incrustações das soluções positivas e negativas encontradas pelo LLM, em etapas de otimização anteriores, à camada intermediária da rede para a próxima etapa de geração. Esse vetor de deslocamento direciona a geração do LLM para o tipo de linguagem preferido pelo VLM subsequente, resultando em um desempenho aprimorado nas tarefas de visão subsequentes. Avaliamos abrangentemente nosso GLOV em 16 conjuntos de dados diversos usando duas famílias de VLMs, ou seja, modelos de duplo codificador (por exemplo, CLIP) e codificador-decodificador (por exemplo, LLaVa) - mostrando que as soluções descobertas podem aprimorar o desempenho de reconhecimento em até 15,0% e 57,5% (3,8% e 21,6% em média) para esses modelos.

11

Propriedades Intrigantes de Modelos de Linguagem e Visão de Grande Escala
Intriguing Properties of Large Language and Vision Models

Oct 7
ByYoung-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Yechan Hwang, Ho-Jin Choi
16
4

Recentemente, os grandes modelos de linguagem e visão (LLVMs) têm recebido significativa atenção e esforços de desenvolvimento devido ao seu notável desempenho de generalização em uma ampla gama de tarefas que exigem habilidades de percepção e cognitivas. Um fator-chave por trás de seu sucesso é a sua arquitetura simples, que consiste em um codificador de visão, um projetor e um grande modelo de linguagem (LLM). Apesar de suas conquistas em tarefas avançadas de raciocínio, seu desempenho em tarefas fundamentais relacionadas à percepção (por exemplo, MMVP) permanece surpreendentemente baixo. Essa discrepância levanta a questão de como os LLVMs realmente percebem imagens e exploram as vantagens do codificador de visão. Para abordar isso, investigamos sistematicamente essa questão em relação a vários aspectos: invariância de permutação, robustez, raciocínio matemático, preservação e importância de alinhamento, avaliando as famílias mais comuns de LLVMs (ou seja, LLaVA) em 10 benchmarks de avaliação. Nossos experimentos extensivos revelam várias propriedades intrigantes dos LLVMs atuais: (1) eles processam internamente a imagem de maneira global, mesmo quando a ordem das sequências de patches visuais é permutada aleatoriamente; (2) às vezes são capazes de resolver problemas matemáticos sem perceber totalmente informações numéricas detalhadas; (3) o alinhamento cruzado modal é superajustado a tarefas de raciocínio complexas, fazendo com que percam algumas das capacidades perceptuais originais de seu codificador de visão; (4) o espaço de representação nas camadas inferiores (<25%) desempenha um papel crucial na determinação do desempenho e no aprimoramento da compreensão visual. Por fim, com base nas observações acima, sugerimos direções futuras potenciais para a construção de LLVMs melhores e a criação de benchmarks de avaliação mais desafiadores.

12

Modelos de Difusão de Vídeo Autoregressivos Progressivos
Progressive Autoregressive Video Diffusion Models

Oct 10
ByDesai Xie, Zhan Xu, Yicong Hong, Hao Tan, Difan Liu, Feng Liu, Arie Kaufman, Yang Zhou
16
4

Os modelos de difusão de vídeo da fronteira atual demonstraram resultados notáveis na geração de vídeos de alta qualidade. No entanto, eles só conseguem gerar pequenos trechos de vídeo, normalmente em torno de 10 segundos ou 240 quadros, devido a limitações computacionais durante o treinamento. Neste trabalho, mostramos que os modelos existentes podem ser naturalmente estendidos para modelos de difusão de vídeo autoregressivos sem alterar as arquiteturas. Nossa ideia chave é atribuir aos quadros latentes níveis de ruído progressivamente crescentes em vez de um único nível de ruído, o que permite uma condição refinada entre os latentes e grandes sobreposições entre as janelas de atenção. Esse processo progressivo de remoção de ruído de vídeo permite que nossos modelos gerem autoregressivamente quadros de vídeo sem degradação de qualidade ou mudanças abruptas de cena. Apresentamos resultados de ponta na geração de vídeos longos em 1 minuto (1440 quadros a 24 FPS). Os vídeos deste artigo estão disponíveis em https://desaixie.github.io/pa-vdm/.

13

Preservação das Capacidades Multi-Modais de VLMs Pré-treinados para Melhorar a Composicionalidade Visão-Linguística
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality

Oct 7
ByYoungtaek Oh, Jae Won Cho, Dong-Jin Kim, In So Kweon, Junmo Kim
11
3

Neste artigo, propomos um novo método para aprimorar a compreensão composicional em modelos pré-treinados de visão e linguagem (VLMs) sem sacrificar o desempenho em tarefas multi-modais de zero-shot. Abordagens tradicionais de ajuste fino frequentemente melhoram o raciocínio composicional ao custo da degradação das capacidades multi-modais, principalmente devido ao uso da perda global de negativos difíceis (HN), que contrasta representações globais de imagens e textos. Essa perda global de HN empurra textos HN altamente semelhantes aos originais, prejudicando as representações multi-modais do modelo. Para superar essa limitação, propomos o CLIP Calibrado Seletivo de Granularidade Fina (FSC-CLIP), que integra perda local de negativos difíceis e regularização seletiva calibrada. Essas inovações fornecem supervisão negativa de granularidade fina enquanto preservam a integridade representacional do modelo. Nossas extensas avaliações em diversos benchmarks para tarefas de composicionalidade e multi-modais mostram que o FSC-CLIP não apenas alcança composicionalidade em nível com modelos de ponta, mas também mantém fortes capacidades multi-modais. O código está disponível em: https://github.com/ytaek-oh/fsc-clip.

14

Rumo à Autoaperfeiçoamento de LLMs via MCTS: Alavancando Conhecimento Passo a Passo com Aprendizado de Preferência de Currículo
Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning

Oct 9
ByXiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu
11
2

A busca em árvore de Monte Carlo (Monte Carlo Tree Search - MCTS) surgiu recentemente como uma técnica poderosa para aprimorar as capacidades de raciocínio de LLMs. Técnicas como SFT ou DPO têm possibilitado que LLMs destilem comportamentos de alta qualidade do MCTS, melhorando seu desempenho de raciocínio. No entanto, os métodos de destilação existentes subutilizam as informações de trajetória geradas pelo MCTS, limitando o potencial de melhorias no raciocínio de LLMs. Neste artigo, propomos o AlphaLLM-CPL, um novo framework de treinamento em pares que permite que LLMs se auto aprimorem por meio da destilação de comportamentos do MCTS. O AlphaLLM-CPL aproveita de forma eficiente as trajetórias do MCTS por meio de duas inovações-chave: (1) o AlphaLLM-CPL constrói pares de trajetórias passo a passo a partir de nós filhos que compartilham o mesmo pai na árvore de busca, fornecendo informações em nível de passo para uma destilação de comportamento do MCTS mais eficaz. (2) O AlphaLLM-CPL introduz a aprendizagem de preferência de currículo, ajustando dinamicamente a sequência de treinamento de pares de trajetórias em cada época de treinamento offline para priorizar etapas críticas de aprendizado e mitigar o overfitting. Resultados experimentais em tarefas de raciocínio matemático demonstram que o AlphaLLM-CPL supera significativamente os métodos anteriores de destilação de comportamento do MCTS, impulsionando substancialmente as capacidades de raciocínio de LLMs.

15

Tudo em Todo Lugar de Uma Vez: LLMs podem Aprender Múltiplas Tarefas em Contexto em Superposição
Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

Oct 8
ByZheyang Xiong, Ziyang Cai, John Cooper, Albert Ge, Vasilis Papageorgiou, Zack Sifakis, Angeliki Giannou, Ziqian Lin, Liu Yang, Saurabh Agarwal, Grigorios G Chrysos, Samet Oymak, Kangwook Lee, Dimitris Papailiopoulos
11
2

Os Modelos de Linguagem de Grande Escala (LLMs) demonstraram notáveis capacidades de aprendizado em contexto (ICL). Neste estudo, exploramos um fenômeno surpreendente relacionado ao ICL: os LLMs podem realizar múltiplas tarefas de ICL computacionalmente distintas simultaneamente, durante uma única chamada de inferência, uma capacidade que denominamos "superposição de tarefas". Fornecemos evidências empíricas desse fenômeno em diversas famílias e escalas de LLMs e mostramos que esse fenômeno emerge mesmo se treinarmos o modelo para aprender em contexto uma tarefa de cada vez. Oferecemos explicações teóricas de que essa capacidade está dentro do poder expressivo dos transformadores. Também exploramos como os LLMs compõem internamente vetores de tarefas durante a superposição. Além disso, demonstramos que modelos maiores podem resolver mais tarefas de ICL em paralelo e calibrar melhor a distribuição de suas saídas. Nossas descobertas oferecem insights sobre as capacidades latentes dos LLMs, corroboram ainda mais a perspectiva de "LLMs como superposição de simuladores" e levantam questões sobre os mecanismos que permitem a execução simultânea de tarefas.

16

SFTMix: Elevando o Ajuste de Instruções do Modelo de Linguagem com a Receita Mixup
SFTMix: Elevating Language Model Instruction Tuning with Mixup Recipe

Oct 7
ByYuxin Xiao, Shujian Zhang, Wenxuan Zhou, Marzyeh Ghassemi, Sanqiang Zhao
9
2

Para induzir comportamentos desejados em grandes modelos de linguagem (LLMs) para tarefas orientadas à interação, a etapa de ajuste de instruções geralmente treina LLMs em pares de instrução-resposta usando a perda de previsão do próximo token (NTP). Trabalhos anteriores que visam melhorar o desempenho do ajuste de instruções frequentemente enfatizam a necessidade de conjuntos de dados de ajuste fino supervisionado (SFT) de alta qualidade, que geralmente envolve filtragem de dados cara com LLMs proprietários ou geração de dados intensiva por anotadores humanos. No entanto, essas abordagens não aproveitam totalmente as propriedades intrínsecas dos conjuntos de dados, resultando em altos custos computacionais e trabalhistas, limitando assim a escalabilidade e os ganhos de desempenho. Neste artigo, propomos o SFTMix, uma nova abordagem que eleva o desempenho do ajuste de instruções além do paradigma convencional NTP, sem a necessidade de conjuntos de dados bem curados. Observando que os LLMs exibem confiança desigual em todo o espaço de representação semântica, argumentamos que exemplos com diferentes níveis de confiança devem desempenhar papéis distintos durante o processo de ajuste de instruções. Com base nessa percepção, o SFTMix aproveita a dinâmica de treinamento para identificar exemplos com diferentes níveis de confiança, em seguida, aplica uma regularização baseada em Mixup para mitigar o overfitting em exemplos confiantes enquanto propaga sinais de supervisão para melhorar o aprendizado em exemplos relativamente não confiantes. Essa abordagem permite que o SFTMix supere significativamente o NTP em uma ampla gama de tarefas de SFT específicas de seguir instruções e do domínio da saúde, demonstrando sua adaptabilidade a diversas famílias de LLMs e escalabilidade para conjuntos de dados de qualquer tamanho. Estudos abrangentes de ablação verificam ainda a robustez das escolhas de design do SFTMix, destacando sua versatilidade em aprimorar consistentemente o desempenho em diferentes LLMs e conjuntos de dados em aplicações mais amplas de processamento de linguagem natural.

17

Optima: Otimizando a Efetividade e Eficiência para um Sistema Multiagente Baseado em LLM
Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System

Oct 10
ByWeize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun
8
2

Os Sistemas Multiagentes (MAS) baseados em Modelos de Linguagem Grande (LLM) demonstram um potencial notável na resolução colaborativa de problemas, porém ainda enfrentam desafios críticos: baixa eficiência de comunicação, escalabilidade limitada e falta de métodos eficazes de otimização de atualização de parâmetros. Apresentamos o Optima, um novo framework que aborda essas questões ao aprimorar significativamente tanto a eficiência de comunicação quanto a eficácia da tarefa em MAS baseados em LLM por meio do treinamento do LLM. O Optima emprega um paradigma iterativo de geração, classificação, seleção e treinamento com uma função de recompensa que equilibra o desempenho da tarefa, eficiência de tokens e legibilidade da comunicação. Exploramos vários algoritmos de RL, incluindo Ajuste Fino Supervisionado, Otimização Direta de Preferências e suas abordagens híbridas, fornecendo insights sobre os compromissos entre eficácia e eficiência. Integramos técnicas inspiradas em Monte Carlo Tree Search para geração de dados de ODP, tratando as trocas de conversa como nós de árvores para explorar caminhos de interação diversos. Avaliado em tarefas multiagentes comuns, incluindo perguntas assimétricas de resposta à informação e raciocínio complexo, o Optima mostra melhorias consistentes e substanciais em relação às bases de agentes únicos e MAS simples baseados no Llama 3 8B, alcançando até 2,8 vezes mais desempenho com menos de 10% de tokens em tarefas que exigem intenso intercâmbio de informações. Além disso, os ganhos de eficiência do Optima abrem novas possibilidades para aproveitar a inferência-computação de forma mais eficaz, levando a leis de escalonamento de tempo de inferência aprimoradas. Ao abordar desafios fundamentais em MAS baseados em LLM, o Optima demonstra o potencial para MAS escaláveis, eficientes e eficazes (https://chenweize1998.github.io/optima-project-page).

18

Expandindo seus Kernels: Design de Kernels Grandes em ConvNets em direção a Representações Universais
Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

Oct 10
ByYiyuan Zhang, Xiaohan Ding, Xiangyu Yue
8
2

Este artigo propõe o paradigma de grandes kernels convolucionais no design de Redes Neurais Convolucionais (ConvNets) modernas. Estabelecemos que o uso de alguns grandes kernels, em vez de empilhar vários menores, pode ser uma estratégia de design superior. Nosso trabalho introduz um conjunto de diretrizes de design de arquitetura para ConvNets de grandes kernels que otimizam sua eficiência e desempenho. Propomos a arquitetura UniRepLKNet, que oferece princípios de design de arquitetura sistematizados especificamente elaborados para ConvNets de grandes kernels, enfatizando sua capacidade única de capturar informações espaciais extensivas sem empilhamento profundo de camadas. Isso resulta em um modelo que não apenas supera seus predecessores com uma precisão no ImageNet de 88,0%, um mIoU no ADE20K de 55,6% e um AP de caixa no COCO de 56,4%, mas também demonstra escalabilidade e desempenho impressionantes em várias modalidades, como previsão de séries temporais, áudio, nuvem de pontos e reconhecimento de vídeo. Esses resultados indicam as habilidades de modelagem universais de ConvNets de grandes kernels com uma velocidade de inferência mais rápida em comparação com os transformadores de visão. Nossas descobertas revelam que ConvNets de grandes kernels possuem campos receptivos eficazes maiores e um viés de forma mais alto, afastando-se do viés de textura típico das CNNs de pequenos kernels. Todos os códigos e modelos estão disponíveis publicamente em https://github.com/AILab-CVC/UniRepLKNet, promovendo pesquisas e desenvolvimentos adicionais na comunidade.

19

Fraudando Referenciais Automáticos LLM: Modelos Nulos Alcançam Altas Taxas de Vitória
Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates

Oct 9
ByXiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin
8
2

Benchmarks automáticos de LLM, como AlpacaEval 2.0, Arena-Hard-Auto e MT-Bench, tornaram-se populares para avaliar modelos de linguagem devido à sua relação custo-eficácia e escalabilidade em comparação com a avaliação humana. Alcançar altas taxas de vitória nessas referências pode impulsionar significativamente o impacto promocional de modelos de linguagem recém-lançados. Esse benefício promocional pode motivar artifícios, como manipular o comprimento ou estilo de saída do modelo para aumentar as taxas de vitória, mesmo que vários mecanismos tenham sido desenvolvidos para controlar o comprimento e desembaraçar o estilo para reduzir a possibilidade de manipulação. No entanto, mostramos que até mesmo um "modelo nulo" que sempre produz uma resposta constante (irrelevante para as instruções de entrada) pode trapacear em benchmarks automáticos e alcançar altas taxas de vitória classificatórias: uma taxa de vitória de 86,5% no AlpacaEval 2.0; uma pontuação de 83,0 no Arena-Hard-Auto; e uma pontuação de 9,55 no MT-Bench. Além disso, as saídas de trapaça elaboradas são transferíveis, pois presumimos que as instruções desses benchmarks (por exemplo, 805 amostras do AlpacaEval 2.0) são privadas e não podem ser acessadas. Embora nossos experimentos sejam principalmente de prova de conceito, um adversário poderia usar LLMs para gerar respostas de trapaça mais imperceptíveis, beneficiando-se de maneira antiética de altas taxas de vitória e impacto promocional. Nossas descobertas destacam a necessidade do desenvolvimento de mecanismos anti-trapaça para benchmarks automáticos confiáveis. O código está disponível em https://github.com/sail-sg/Cheating-LLM-Benchmarks.

20

Propriedades emergentes com exemplos repetidos
Emergent properties with repeated examples

Oct 9
ByFrançois Charton, Julia Kempe
8
3

Estudamos o desempenho dos transformadores em função do número de repetições de exemplos de treinamento com conjuntos de dados gerados algoritmicamente. Em três problemas de matemática - o maior divisor comum, multiplicação modular e autovalores de matriz - mostramos que, para um número fixo de etapas de treinamento, modelos treinados em conjuntos menores de exemplos repetidos superam modelos treinados em conjuntos maiores de exemplos de uso único. Também demonstramos que o treinamento de dois conjuntos - uso repetido de um pequeno subconjunto aleatório de exemplos, juntamente com amostragem normal no restante do conjunto de treinamento - proporciona aprendizado mais rápido e melhor desempenho. Isso destaca que os benefícios da repetição podem superar os da diversidade de dados. Esses conjuntos de dados e problemas fornecem um ambiente controlado para lançar luz sobre a interação ainda pouco compreendida entre generalização e memorização em aprendizado profundo.

21

Otimização Acelerada de Preferências para Alinhamento de Modelos de Linguagem de Grande Escala
Accelerated Preference Optimization for Large Language Model Alignment

Oct 8
ByJiafan He, Huizhuo Yuan, Quanquan Gu
5
2

A Aprendizagem por Reforço a partir do Feedback Humano (ARFH) emergiu como uma ferramenta fundamental para alinhar grandes modelos de linguagem (GMLs) com as preferências humanas. A Otimização Direta de Preferências (ODP), uma das abordagens mais populares, formula a ARFH como um problema de otimização de política sem estimar explicitamente a função de recompensa. Ela supera os problemas de estabilidade e eficiência das abordagens em dois passos, que tipicamente envolvem primeiro a estimativa da função de recompensa e então a otimização da política via otimização de política proximal (OPP). Uma vez que a ARFH é essencialmente um problema de otimização, e é bem conhecido que técnicas de momentum podem acelerar a otimização tanto teoricamente quanto empiricamente, surge naturalmente a questão: a ARFH pode ser acelerada pelo momentum? Este artigo responde afirmativamente a essa questão. Detalhadamente, mostramos primeiramente que o método iterativo de otimização de preferências pode ser visto como um método de ponto proximal. Com base nessa observação, propomos um framework geral de Otimização Acelerada de Preferências (OAP), que unifica muitos algoritmos de otimização de preferências existentes e emprega a técnica de momentum de Nesterov para acelerar o alinhamento de GMLs. Teoricamente, demonstramos que a OAP pode alcançar uma taxa de convergência mais rápida do que os métodos padrão iterativos de otimização de preferências, incluindo ODP e Otimização de Preferências de Autojogo (OPA). Empiricamente, mostramos a superioridade da OAP sobre a ODP, ODP iterativo e outras bases fortes para ARFH no benchmark AlpacaEval 2.0.

22

Consultor de Dados: Curadoria Dinâmica de Dados para Alinhamento de Segurança de Modelos de Linguagem Grandes
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models

Oct 7
ByFei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan
3
2

Os dados são um elemento crucial no alinhamento de grandes modelos de linguagem (LLM). Estudos recentes têm explorado o uso de LLMs para coleta eficiente de dados. No entanto, os dados gerados por LLM frequentemente sofrem com problemas de qualidade, com aspectos sub-representados ou ausentes e pontos de dados de baixa qualidade. Para lidar com esses problemas, propomos o Data Advisor, um método aprimorado baseado em LLM para geração de dados que leva em consideração as características do conjunto de dados desejado. Partindo de um conjunto de princípios predefinidos, o Data Advisor monitora o estado dos dados gerados, identifica fraquezas no conjunto de dados atual e aconselha a próxima iteração da geração de dados de acordo. O Data Advisor pode ser facilmente integrado a métodos existentes de geração de dados para aprimorar a qualidade e cobertura dos dados. Experimentos sobre o alinhamento de segurança de três LLMs representativos (ou seja, Mistral, Llama2 e Falcon) demonstram a eficácia do Data Advisor em aprimorar a segurança do modelo contra várias questões de segurança detalhadas sem sacrificar a utilidade do modelo.

23

MotionGS: Explorando Orientação de Movimento Explícito para Espalhamento Gaussiano 3D Deformável
MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting

Oct 10
ByRuijie Zhu, Yanzhe Liang, Hanzhi Chang, Jiacheng Deng, Jiahao Lu, Wenfei Yang, Tianzhu Zhang, Yongdong Zhang
3
2

A reconstrução dinâmica de cenas é um desafio de longo prazo no campo da visão 3D. Recentemente, a emergência do Splatting Gaussiano 3D proporcionou novas perspectivas sobre esse problema. Embora esforços subsequentes rapidamente estendam o Gaussiano 3D estático para cenas dinâmicas, frequentemente carecem de restrições explícitas sobre o movimento do objeto, o que leva a dificuldades de otimização e degradação de desempenho. Para abordar as questões mencionadas, propomos um novo framework deformável de Splatting Gaussiano 3D chamado MotionGS, que explora priores de movimento explícitos para guiar a deformação dos Gaussianos 3D. Especificamente, introduzimos primeiro um módulo de desacoplamento de fluxo óptico que separa o fluxo óptico em fluxo da câmera e fluxo de movimento, correspondendo respectivamente ao movimento da câmera e ao movimento do objeto. Em seguida, o fluxo de movimento pode efetivamente restringir a deformação dos Gaussianos 3D, simulando assim o movimento de objetos dinâmicos. Além disso, propomos um módulo de refinamento de pose da câmera para otimizar alternadamente os Gaussianos 3D e as poses da câmera, mitigando o impacto de poses de câmera imprecisas. Experimentos extensivos em cenas dinâmicas monoculares validam que o MotionGS supera os métodos de ponta e exibe uma superioridade significativa tanto em resultados qualitativos quanto quantitativos. Página do projeto: https://ruijiezhu94.github.io/MotionGS_page

24

Vector-ICL: Aprendizado em Contexto com Representações Vetoriais Contínuas
Vector-ICL: In-context Learning with Continuous Vector Representations

Oct 8
ByYufan Zhuang, Chandan Singh, Liyuan Liu, Jingbo Shang, Jianfeng Gao
3
3

Grandes modelos de linguagem (LLMs) têm mostrado notáveis capacidades de aprendizado em contexto (ICL) em dados textuais. Exploramos se essas capacidades podem ser estendidas para vetores contínuos de diversos domínios, obtidos de codificadores pré-treinados caixa-preta. Ao alinhar os dados de entrada com o espaço de incorporação de um LLM por meio de projetores leves, observamos que os LLMs podem processar e aprender de forma eficaz a partir desses vetores projetados, que denominamos Vetor-ICL. Em particular, descobrimos que o pré-treinamento dos projetores com objetivos gerais de modelagem de linguagem possibilita o Vetor-ICL, enquanto o ajuste fino específico da tarefa melhora ainda mais o desempenho. Em nossos experimentos em várias tarefas e modalidades, incluindo reconstrução de texto, regressão de funções numéricas, classificação de texto, sumarização, legenda de moléculas, classificação de séries temporais, classificação de grafos e decodificação de fMRI, o Vetor-ICL frequentemente supera tanto o ICL de poucas amostras quanto modelos ou ajustes específicos de domínio. Realizamos ainda análises e estudos de caso, indicando o potencial dos LLMs para processar representações vetoriais além dos paradigmas tradicionais baseados em tokens.

25

Zebra: Pré-treinamento Contextual e Generativo para Resolver EDPs Paramétricas
Zebra: In-Context and Generative Pretraining for Solving Parametric PDEs

Oct 4
ByLouis Serrano, Armand Kassaï Koupaï, Thomas X Wang, Pierre Erbacher, Patrick Gallinari
2
2

Resolver equações diferenciais parciais (EDPs) paramétricas dependentes do tempo é desafiador, pois os modelos precisam se adaptar às variações nos parâmetros, como coeficientes, termos de forçamento e condições de contorno. Solucionadores neurais orientados por dados treinam em dados amostrados da distribuição de parâmetros da EDP na esperança de que o modelo generalize para novas instâncias ou dependem de adaptação baseada em gradientes e meta-aprendizado para codificar implicitamente a dinâmica a partir de observações. Isso frequentemente resulta em maior complexidade de inferência. Inspirados pelas capacidades de aprendizado em contexto de grandes modelos de linguagem (LLMs), apresentamos Zebra, um novo transformador auto-regressivo generativo projetado para resolver EDPs paramétricas sem necessidade de adaptação de gradientes na inferência. Ao alavancar informações em contexto durante o pré-treinamento e a inferência, Zebra se adapta dinamicamente a novas tarefas condicionando-se a sequências de entrada que incorporam trajetórias de contexto ou estados anteriores. Essa abordagem permite que Zebra lide flexivelmente com entradas de contexto de tamanho arbitrário e suporte a quantificação de incerteza por meio da amostragem de múltiplas trajetórias de solução. Avaliamos Zebra em uma variedade de cenários desafiadores de EDP, demonstrando sua adaptabilidade, robustez e desempenho superior em comparação com abordagens existentes.

26

LPZero: Modelo de Linguagem de Procura de Proxy sem Custo a partir do Zero
LPZero: Language Model Zero-cost Proxy Search from Zero

Oct 7
ByPeijie Dong, Lujun Li, Xiang Liu, Zhenheng Tang, Xuebo Liu, Qiang Wang, Xiaowen Chu
2
2

Apesar do desempenho excepcional, a Busca de Arquitetura Neural (NAS) é criticada pela enorme quantidade de cálculos. Recentemente, a NAS de Zero-shot surgiu como uma abordagem promissora ao explorar Proxies de Zero-custo (ZC), que reduzem significativamente as demandas computacionais. Apesar disso, os Proxies ZC existentes dependem fortemente do conhecimento especializado e incorrem em custos significativos de tentativa e erro. Especialmente em tarefas de Processamento de Linguagem Natural (NLP), a maioria dos Proxies ZC existentes não consegue superar o desempenho da linha de base ingênua. Para enfrentar esses desafios, apresentamos um novo framework, LPZero, que é o primeiro a projetar automaticamente Proxies ZC para várias tarefas, alcançando uma consistência de classificação mais alta do que os Proxies projetados por humanos. Especificamente, modelamos o Proxy ZC como uma equação simbólica e incorporamos um espaço de busca de Proxy unificado que engloba os Proxies ZC existentes, compostos por um conjunto predefinido de símbolos matemáticos. Para buscar heuristicamente o melhor Proxy ZC, o LPZero incorpora programação genética para encontrar a composição simbólica ideal. Propomos uma Estratégia de Poda Baseada em Regras (RPS), que elimina preventivamente Proxies pouco promissores, mitigando assim o risco de degradação do Proxy. Experimentos extensos em FlexiBERT, GPT-2 e LLaMA-7B demonstram a capacidade de classificação superior do LPZero e seu desempenho em tarefas subsequentes em comparação com abordagens atuais.

Oct 10
Oct 11
Oct 14