ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

MM1.5: Métodos, Análises e Perspectivas da Afinação Fina de LLM Multimodal
MM1.5: Methods, Analysis & Insights from Multimodal LLM Fine-tuning

Sep 30
ByHaotian Zhang, Mingfei Gao, Zhe Gan, Philipp Dufter, Nina Wenzel, Forrest Huang, Dhruti Shah, Xianzhi Du, Bowen Zhang, Yanghao Li, Sam Dodge, Keen You, Zhen Yang, Aleksei Timofeev, Mingze Xu, Hong-You Chen, Jean-Philippe Fauconnier, Zhengfeng Lai, Haoxuan You, Zirui Wang, Afshin Dehghan, Peter Grasch, Yinfei Yang
56
3

Apresentamos o MM1.5, uma nova família de modelos de linguagem multimodais grandes (MLLMs) projetados para aprimorar as capacidades em compreensão de imagens ricas em texto, referência visual e fundamentação, e raciocínio multi-imagem. Construindo sobre a arquitetura MM1, o MM1.5 adota uma abordagem centrada em dados para o treinamento do modelo, explorando sistematicamente o impacto de diversas misturas de dados ao longo de todo o ciclo de treinamento do modelo. Isso inclui dados de OCR de alta qualidade e legendas sintéticas para pré-treinamento contínuo, bem como uma mistura de dados otimizada para ajuste de instruções visuais para ajuste fino supervisionado. Nossos modelos variam de 1B a 30B de parâmetros, abrangendo variantes densas e de mistura de especialistas (MoE), e demonstram que a curadoria cuidadosa de dados e estratégias de treinamento podem resultar em um desempenho sólido mesmo em escalas pequenas (1B e 3B). Além disso, introduzimos duas variantes especializadas: MM1.5-Video, projetado para compreensão de vídeo, e MM1.5-UI, adaptado para compreensão de interface de usuário móvel. Através de extensos estudos empíricos e ablações, fornecemos insights detalhados sobre os processos de treinamento e decisões que informam nossos designs finais, oferecendo orientações valiosas para pesquisas futuras no desenvolvimento de MLLMs.

2

Régua: Um Método Agnóstico de Modelo para Controlar o Comprimento Gerado por Modelos de Linguagem Grandes
Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models

Sep 27
ByJiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang
29
2

A capacidade de seguir instruções dos grandes modelos de linguagem permite que os humanos interajam com agentes de IA de forma natural. No entanto, ao serem solicitados a gerar respostas de um comprimento específico, os grandes modelos de linguagem frequentemente têm dificuldade em atender às necessidades dos usuários devido à sua dificuldade inerente em perceber com precisão as restrições numéricas. Para explorar a capacidade dos grandes modelos de linguagem em controlar o comprimento das respostas geradas, propomos a Tarefa de Geração de Comprimento-Alvo (TLG) e projetamos duas métricas, Correspondência Precisa (PM) e Correspondência Flexível (FM) para avaliar o desempenho do modelo em aderir aos comprimentos de resposta especificados. Além disso, introduzimos uma abordagem inovadora, independente do modelo, chamada Ruler, que utiliza Tokens de Comprimento Meta (MLTs) para aprimorar a capacidade de seguir instruções dos grandes modelos de linguagem sob instruções com restrição de comprimento. Especificamente, o Ruler capacita os LLMs com a capacidade de gerar respostas de um comprimento especificado com base nas restrições de comprimento nas instruções. Além disso, o Ruler pode gerar automaticamente um MLT apropriado quando as restrições de comprimento não são fornecidas explicitamente, demonstrando excelente versatilidade e generalização. Experimentos abrangentes mostram a eficácia do Ruler em diferentes LLMs na Tarefa de Geração de Comprimento-Alvo, por exemplo, em All Level 27,97 de ganho médio em PM, 29,57 de ganho médio em FM. Além disso, realizamos extensos experimentos de ablação para substanciar ainda mais a eficácia e generalização do Ruler. Nosso código e dados estão disponíveis em https://github.com/Geaming2002/Ruler.

3

Hiperconexões
Hyper-Connections

Sep 29
ByDefa Zhu, Hongzhi Huang, Zihao Huang, Yutao Zeng, Yunyao Mao, Banggu Wu, Qiyang Min, Xun Zhou
24
7

Apresentamos hiperconexões, um método simples, porém eficaz, que pode servir como uma alternativa às conexões residuais. Esta abordagem aborda especificamente as desvantagens comuns observadas em variantes de conexão residual, como o efeito gangorra entre o desaparecimento do gradiente e o colapso da representação. Teoricamente, as hiperconexões permitem que a rede ajuste a força das conexões entre características em diferentes profundidades e rearranje dinamicamente as camadas. Realizamos experimentos focados no pré-treinamento de grandes modelos de linguagem, incluindo modelos densos e esparsos, nos quais as hiperconexões mostram melhorias significativas de desempenho em relação às conexões residuais. Experimentos adicionais realizados em tarefas de visão também demonstram melhorias semelhantes. Antecipamos que este método será amplamente aplicável e benéfico em uma ampla gama de problemas de IA.

4

DiaSynth -- Estrutura de Geração de Diálogo Sintético
DiaSynth -- Synthetic Dialogue Generation Framework

Sep 25
BySathya Krishnan Suresh, Wu Mengjun, Tushar Pranav, Eng Siong Chng
21
3

A escassez de conjuntos de dados de diálogo específicos de domínio em vários domínios, desde tópicos acadêmicos até conversas cotidianas, limita o desenvolvimento de sistemas de diálogo para diversas aplicações. A pesquisa existente muitas vezes é limitada por conjuntos de dados de diálogo que são muito gerais ou por conjuntos de dados de diálogo de domínio de nicho cuja escala não corresponde à escala necessária para treinar sistemas de diálogo. Para abordar essa lacuna, apresentamos o DiaSynth - um framework de geração de diálogo sintético capaz de gerar diálogos de alta qualidade, ricos em contexto, em uma ampla gama de domínios. Nossa abordagem difere dos frameworks existentes ao gerar dinamicamente diálogos que incorporam personas simuladas, subtópicos e diversas características conversacionais, utilizando um Modelo de Linguagem Grande (LLM) com raciocínio Chain of Thought (CoT) para criar diálogos ricos em contexto e específicos de domínio que imitam de perto as interações humanas naturais. O DiaSynth produz diálogos personalizados que imitam conversas realistas. Realizamos nossos experimentos gerando dados sintéticos usando diferentes LLMs e exemplos de poucas iterações do DialogSum e SAMSum. Os modelos de linguagem pré-treinados ajustados aos dados sintéticos superam os modelos base em 16,47%, enquanto a comparação entre modelos ajustados aos dados dentro do domínio e dados sintéticos mostra que os dados sintéticos são capazes de capturar 90,48% da distribuição dos dados dentro do domínio. A qualidade dos dados gerados também aumenta com o tamanho dos LLMs. Esses resultados validam o potencial do DiaSynth como uma alternativa robusta aos métodos tradicionais de coleta de dados.

5

Atenção Cosseno: Transformadores Lineares com Atenção Cosseno
Cottention: Linear Transformers With Cosine Attention

Sep 27
ByGabriel Mongaras, Trevor Dohm, Eric C. Larson
17
5

Mecanismos de atenção, particularmente atenção softmax, têm sido fundamentais para o sucesso de modelos baseados em transformadores como o GPT. No entanto, a complexidade de memória quadrática da atenção softmax em relação ao comprimento da sequência apresenta desafios significativos para o processamento de sequências mais longas. Apresentamos o Cottention, um novo mecanismo de atenção que substitui a operação softmax pela similaridade de cosseno. Ao aproveitar as propriedades da similaridade de cosseno e reorganizar a equação de atenção, o Cottention alcança uma complexidade de memória linear nativa em relação ao comprimento da sequência, tornando-o inerentemente mais eficiente em termos de memória do que a atenção softmax. Demonstramos que o Cottention pode ser reformulado como uma rede neural recorrente (RNN) com um estado oculto finito, permitindo o uso de memória constante durante a inferência. Avaliamos o Cottention nas tarefas bidirecionais BERT e causal GPT, demonstrando desempenho comparável à atenção softmax, enquanto reduzimos significativamente os requisitos de memória. Para garantir uma computação eficiente, desenvolvemos um kernel CUDA personalizado para o Cottention. Nossos resultados mostram que o Cottention é uma alternativa promissora à atenção softmax, possibilitando o processamento de sequências mais longas sem sacrificar o desempenho, devido à sua complexidade de memória linear nativa e capacidade de manter uma pegada de memória constante durante a inferência.

6

UniAff: Uma Representação Unificada de Possibilidades para o Uso de Ferramentas e Articulação com Modelos de Visão e Linguagem
UniAff: A Unified Representation of Affordances for Tool Usage and Articulation with Vision-Language Models

Sep 30
ByQiaojun Yu, Siyuan Huang, Xibin Yuan, Zhengkai Jiang, Ce Hao, Xin Li, Haonan Chang, Junbo Wang, Liu Liu, Hongsheng Li, Peng Gao, Cewu Lu
15
4

Estudos anteriores sobre manipulação robótica são baseados em um entendimento limitado das restrições de movimento 3D subjacentes e affordances. Para enfrentar esses desafios, propomos um paradigma abrangente, denominado UniAff, que integra a manipulação centrada em objetos 3D e a compreensão da tarefa em uma formulação unificada. Especificamente, construímos um conjunto de dados rotulado com atributos-chave relacionados à manipulação, compreendendo 900 objetos articulados de 19 categorias e 600 ferramentas de 12 categorias. Além disso, aproveitamos MLLMs para inferir representações centradas em objetos para tarefas de manipulação, incluindo reconhecimento de affordance e raciocínio sobre restrições de movimento 3D. Experimentos abrangentes em ambientes de simulação e no mundo real indicam que o UniAff melhora significativamente a generalização da manipulação robótica para ferramentas e objetos articulados. Esperamos que o UniAff sirva como uma linha de base geral para tarefas de manipulação robótica unificadas no futuro. Imagens, vídeos, conjunto de dados e código estão publicados no site do projeto em: https://sites.google.com/view/uni-aff/home

7

Detecção de Cópia de Imagens para Modelos de Difusão
Image Copy Detection for Diffusion Models

Sep 30
ByWenhao Wang, Yifan Sun, Zhentao Tan, Yi Yang
14
3

As imagens produzidas por modelos de difusão estão cada vez mais populares em arte digital e marketing visual. No entanto, tais imagens geradas podem replicar conteúdo de existentes e apresentar o desafio da originalidade do conteúdo. Modelos existentes de Detecção de Cópia de Imagem (DCI), embora precisos na detecção de réplicas feitas manualmente, ignoram o desafio dos modelos de difusão. Isso nos motiva a apresentar o ICDiff, o primeiro DCI especializado para modelos de difusão. Para isso, construímos um conjunto de dados de Replicação de Difusão (D-Rep) e propomos um novo método de incorporação profunda correspondente. O D-Rep utiliza um modelo de difusão de ponta (Difusão Estável V1.5) para gerar 40.000 pares de imagem-réplica, que são manualmente anotados em 6 níveis de replicação variando de 0 (sem replicação) a 5 (replicação total). Nosso método, Incorporação de PDF, transforma o nível de replicação de cada par de imagem-réplica em uma função de densidade de probabilidade (PDF) como sinal de supervisão. A intuição é que a probabilidade dos níveis de replicação vizinhos deve ser contínua e suave. Resultados experimentais mostram que a Incorporação de PDF supera métodos orientados por protocolo e escolhas não-PDF no conjunto de teste D-Rep. Além disso, ao utilizar a Incorporação de PDF, descobrimos que as taxas de replicação de modelos de difusão conhecidos em relação a uma galeria de código aberto variam de 10% a 20%.

8

Escalonando Aprendizado Proprioceptivo-Visual com Transformadores Pré-treinados Heterogêneos
Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

Sep 30
ByLirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He
14
2

Um dos obstáculos para o treinamento de modelos robóticos generalistas hoje em dia é a heterogeneidade. Métodos anteriores de aprendizado de robôs frequentemente coletam dados para treinar com um único corpo específico para uma tarefa, o que é caro e propenso ao overfitting. Este trabalho estuda o problema de aprender representações de políticas por meio de pré-treinamento heterogêneo em dados de robôs de diferentes corpos e tarefas em escala. Propomos Transformadores Pré-treinados Heterogêneos (HPT), que pré-treinam um tronco grande e compartilhável de uma rede neural de política para aprender uma representação compartilhada independente de tarefa e corpo. Esta arquitetura geral alinha as entradas específicas de propriocepção e visão de diferentes corpos a uma sequência curta de tokens e então processa tais tokens para mapear o controle de robôs para diferentes tarefas. Aproveitando conjuntos de dados robóticos do mundo real multi-corpos em larga escala recentes, bem como simulações, robôs implantados e conjuntos de dados de vídeo humanos, investigamos o pré-treinamento de políticas em meio à heterogeneidade. Realizamos experimentos para investigar os comportamentos de escalonamento de objetivos de treinamento, até o alcance de 52 conjuntos de dados. Os HPTs superam várias linhas de base e aprimoram o desempenho da política ajustada em mais de 20% em tarefas não vistas em vários benchmarks de simuladores e ambientes do mundo real. Consulte o site do projeto (https://liruiw.github.io/hpt/) para código e vídeos.

9

Coffee-Gym: Um Ambiente para Avaliar e Melhorar o Feedback em Linguagem Natural sobre Código Errôneo
Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code

Sep 29
ByHyungjoo Chae, Taeyoon Kwon, Seungjun Moon, Yongho Song, Dongjin Kang, Kai Tzu-iunn Ong, Beong-woo Kwak, Seonghyeon Bae, Seung-won Hwang, Jinyoung Yeo
11
3

Este artigo apresenta o Coffee-Gym, um ambiente abrangente de RL para treinar modelos que fornecem feedback sobre a edição de código. O Coffee-Gym inclui dois componentes principais: (1) Coffee, um conjunto de dados contendo rastros de edição de código de humanos para perguntas de codificação e feedback escrito por máquina para editar código incorreto; (2) CoffeeEval, uma função de recompensa que reflete fielmente a utilidade do feedback ao avaliar o desempenho do código revisado em testes unitários. Com eles, o Coffee-Gym aborda a falta de conjuntos de dados de alta qualidade para treinar modelos de feedback com RL e fornece recompensas mais precisas do que o modelo de recompensa SOTA (ou seja, GPT-4). Ao aplicar o Coffee-Gym, obtemos modelos de feedback que superam as bases na melhoria da edição de código de LLMs de código aberto, tornando-os comparáveis aos LLMs de código fechado. Disponibilizamos publicamente o conjunto de dados e o ponto de verificação do modelo.

10

Os Modelos Podem Aprender Composição de Habilidades a Partir de Exemplos?
Can Models Learn Skill Composition from Examples?

Sep 29
ByHaoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora
10
2

À medida que os modelos de linguagem grandes (LLMs) se tornam cada vez mais avançados, sua capacidade de exibir generalização composicional - a capacidade de combinar habilidades aprendidas de maneiras novas não encontradas durante o treinamento - tem recebido atenção significativa. Esse tipo de generalização, especialmente em cenários além dos dados de treinamento, também é de grande interesse no estudo da segurança e alinhamento da IA. Um estudo recente introduziu a avaliação SKILL-MIX, onde os modelos são encarregados de compor um pequeno parágrafo demonstrando o uso de um k-tuplo especificado de habilidades linguísticas. Enquanto os modelos pequenos tiveram dificuldade em compor mesmo com k=3, modelos maiores como o GPT-4 se saíram razoavelmente bem com k=5 e 6. Neste artigo, empregamos uma configuração semelhante ao SKILL-MIX para avaliar a capacidade dos modelos menores de aprender generalização composicional a partir de exemplos. Utilizando um conjunto diversificado de habilidades linguísticas - incluindo retórica, literatura, raciocínio, teoria da mente e senso comum - o GPT-4 foi utilizado para gerar amostras de texto que exibem subconjuntos aleatórios de k habilidades. O ajuste fino subsequente dos modelos de parâmetros 7B e 13B nesses textos de habilidades combinadas, para valores crescentes de k, revelou as seguintes descobertas: (1) O treinamento em combinações de k=2 e 3 habilidades resulta em melhorias perceptíveis na capacidade de compor textos com k=4 e 5 habilidades, apesar dos modelos nunca terem visto tais exemplos durante o treinamento. (2) Quando as categorias de habilidades são divididas em grupos de treinamento e retidos, os modelos melhoram significativamente na composição de textos com habilidades retidas durante os testes, apesar de terem visto apenas habilidades de treinamento durante o ajuste fino, ilustrando a eficácia da abordagem de treinamento mesmo com habilidades previamente não vistas. Este estudo também sugere que a incorporação de texto rico em habilidades (potencialmente sintético) no treinamento pode melhorar substancialmente as capacidades composicionais dos modelos.

11

Decomposição de Questão Visual em Modelos de Linguagem Multimodais de Grande Escala
Visual Question Decomposition on Multimodal Large Language Models

Sep 28
ByHaowei Zhang, Jianzhe Liu, Zhen Han, Shuo Chen, Bailan He, Volker Tresp, Zhiqiang Xu, Jindong Gu
9
2

A decomposição de questões surgiu como uma estratégia eficaz para orientar Grandes Modelos de Linguagem (LLMs) a responder perguntas complexas. No entanto, enquanto os métodos existentes se concentram principalmente em modelos de linguagem unimodais, a capacidade de decomposição de questões de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) ainda não foi explorada. Com esse objetivo, este artigo explora a decomposição visual de questões em MLLMs. Especificamente, introduzimos um framework de avaliação sistemática que inclui um conjunto de dados e vários critérios de avaliação para avaliar a qualidade das subquestões decompostas, revelando que os MLLMs existentes têm dificuldade em produzir subquestões de alta qualidade. Para lidar com essa limitação, propomos um conjunto de dados específico para ajuste fino, o DecoVQA+, para aprimorar a capacidade de decomposição de questões do modelo. Com o objetivo de capacitar os modelos a realizar uma decomposição seletiva apropriada, propomos um pipeline eficiente de ajuste fino. O pipeline de ajuste fino consiste em nosso conjunto de dados proposto e um objetivo de treinamento para decomposição seletiva. Os MLLMs ajustados finamente demonstram melhorias significativas na qualidade das subquestões e na política de decomposição seletiva de questões. Além disso, os modelos também alcançam uma maior precisão com a decomposição seletiva em conjuntos de dados de referência VQA.

12

IDEAW: Marcação d'Água Neural de Áudio Robusta com Dupla Incorporação Invertível
IDEAW: Robust Neural Audio Watermarking with Invertible Dual-Embedding

Sep 29
ByPengcheng Li, Xulong Zhang, Jing Xiao, Jianzong Wang
2
2

A técnica de marca d'água de áudio incorpora mensagens em áudio e extrai com precisão mensagens do áudio marcado. Métodos tradicionais desenvolvem algoritmos com base na experiência de especialistas para incorporar marcas d'água no domínio do tempo ou domínio da transformada de sinais. Com o desenvolvimento de redes neurais profundas, surgiu a marca d'água de áudio neural baseada em aprendizado profundo. Em comparação com algoritmos tradicionais, a marca d'água de áudio neural alcança melhor robustez ao considerar vários ataques durante o treinamento. No entanto, os métodos atuais de marca d'água neural sofrem com baixa capacidade e imperceptibilidade insatisfatória. Além disso, a questão da localização da marca d'água, que é extremamente importante e ainda mais pronunciada na marca d'água de áudio neural, não foi adequadamente estudada. Neste artigo, projetamos um modelo de marca d'água de dupla incorporação para localização eficiente. Também consideramos o impacto da camada de ataque na rede neural invertível no treinamento de robustez, aprimorando o modelo para melhorar tanto sua razoabilidade quanto sua estabilidade. Experimentos mostram que o modelo proposto, IDEAW, pode resistir a vários ataques com maior capacidade e capacidade de localização mais eficiente em comparação com métodos existentes.

Sep 30
Oct 1
Oct 2