ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

De Código à Correção: Fechando a Última Etapa da Geração de Código com Depuração Hierárquica
From Code to Correctness: Closing the Last Mile of Code Generation with Hierarchical Debugging

Oct 2
ByYuling Shi, Songsong Wang, Chengcheng Wan, Xiaodong Gu
39
9

Embora os grandes modelos de linguagem tenham avançado significativamente na geração de código, a taxa de aprovação do código gerado é limitada por erros sutis, frequentemente exigindo intervenção humana para passar nos testes, especialmente para problemas complexos. Os sistemas de depuração existentes baseados em LLM tratam os programas gerados como unidades monolíticas, falhando em abordar bugs em múltiplos níveis de granularidade, desde erros de sintaxe de baixo nível até falhas algorítmicas de alto nível. Neste artigo, apresentamos o Depurador de Múltipla Granularidade (MGDebugger), um depurador de código hierárquico que isola, identifica e resolve bugs em vários níveis de granularidade. O MGDebugger decompõe o código problemático em uma estrutura de árvore hierárquica de subfunções, sendo que cada nível representa uma granularidade específica de erro. Durante a depuração, ele analisa cada subfunção e resolve iterativamente os bugs de baixo para cima. Para testar efetivamente cada subfunção, propomos um executor Python simulado por LLM, que rastreia a execução do código e monitora estados importantes de variáveis para identificar erros com precisão. Experimentos extensivos demonstram que o MGDebugger supera os sistemas de depuração existentes, alcançando uma melhoria de 18,9% na precisão em relação às gerações iniciais no HumanEval e uma taxa de sucesso de reparo de 97,6% no HumanEvalFix. Além disso, o MGDebugger corrige efetivamente bugs em diferentes categorias e níveis de dificuldade, demonstrando sua robustez e eficácia.

2

RACIONALISTA: Processo de Pré-treinamento com Supervisão para Melhorar o Raciocínio
RATIONALYST: Pre-training Process-Supervision for Improving Reasoning

Oct 1
ByDongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi
35
3

Os passos de raciocínio gerados pelos LLMs podem ser incompletos, pois imitam saltos lógicos comuns na comunicação do dia a dia encontrados em seus dados de pré-treinamento: as justificativas subjacentes frequentemente são deixadas implícitas (não declaradas). Para enfrentar esse desafio, apresentamos RATIONALYST, um modelo para supervisão de processos de raciocínio com base no pré-treinamento em uma vasta coleção de anotações de justificativas extraídas de dados não rotulados. Extraímos 79 mil justificativas de um conjunto de dados não rotulados em escala web (o Pile) e uma combinação de conjuntos de dados de raciocínio com intervenção humana mínima. Esse pré-treinamento em escala web para raciocínio permite que o RATIONALYST generalize consistentemente em diversas tarefas de raciocínio, incluindo raciocínio matemático, de senso comum, científico e lógico. Ajustado a partir do LLaMa-3-8B, o RATIONALYST melhora a precisão do raciocínio em média 3,9% em 7 benchmarks representativos de raciocínio. Ele também demonstra desempenho superior em comparação com verificadores significativamente maiores como o GPT-4 e modelos de tamanho semelhante ajustados em conjuntos de treinamento correspondentes.

3

PHI-S: Balanceamento de Distribuição para Destilação Multiprofessor sem Rótulos
PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation

Oct 2
ByMike Ranzinger, Jon Barker, Greg Heinrich, Pavlo Molchanov, Bryan Catanzaro, Andrew Tao
34
4

Diversos modelos de base visual possuem forças e fraquezas distintas, ambas as quais podem ser aprimoradas por meio da destilação de conhecimento multi-professor heterogêneo sem rótulos, denominada "modelos aglomerativos". Ampliamos este conjunto de trabalhos ao estudar o efeito das estatísticas de ativação dos professores, em particular o impacto da função de perda na qualidade do modelo estudante resultante. Exploramos um conjunto padrão de técnicas de normalização estatística para alinhar melhor as diferentes distribuições e avaliar seus efeitos. Além disso, examinamos o impacto nas métricas de correspondência de professores a jusante, o que motiva o uso de matrizes de Hadamard. Com essas matrizes, demonstramos propriedades úteis, mostrando como podem ser usadas para padronização isotrópica, em que cada dimensão de uma distribuição multivariada é padronizada usando a mesma escala. Chamamos essa técnica de "Padronização PHI" (PHI-S) e demonstramos empiricamente que ela produz o melhor modelo estudante entre o conjunto de métodos estudados.

4

3DGS-DET: Potencialize a Sobreposição Gaussiana 3D com Orientação de Limites e Amostragem Focada em Caixa para Detecção de Objetos 3D
3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection

Oct 2
ByYang Cao, Yuanliang Jv, Dan Xu
31
2

Os Campos de Radiância Neural (NeRF) são amplamente utilizados para síntese de novas visualizações e foram adaptados para Detecção de Objetos 3D (3DOD), oferecendo uma abordagem promissora para o 3DOD por meio de representação de síntese de visualização. No entanto, o NeRF enfrenta limitações inerentes: (i) capacidade representacional limitada para 3DOD devido à sua natureza implícita e (ii) velocidades de renderização lentas. Recentemente, o Splatting Gaussiano 3D (3DGS) surgiu como uma representação 3D explícita que aborda essas limitações. Inspirado por essas vantagens, este artigo introduz o 3DGS no 3DOD pela primeira vez, identificando dois desafios principais: (i) Distribuição espacial ambígua de blobs gaussianos: o 3DGS depende principalmente da supervisão em nível de pixel 2D, resultando em uma distribuição espacial 3D de blobs gaussianos pouco clara e uma diferenciação fraca entre objetos e fundo, o que prejudica o 3DOD; (ii) Excesso de blobs de fundo: imagens 2D frequentemente incluem numerosos pixels de fundo, resultando em um 3DGS densamente reconstruído com muitos blobs gaussianos ruidosos representando o fundo, afetando negativamente a detecção. Para enfrentar o desafio (i), aproveitamos o fato de que a reconstrução do 3DGS é derivada de imagens 2D e propomos uma solução elegante e eficiente incorporando Orientação de Borda 2D para aprimorar significativamente a distribuição espacial de blobs gaussianos, resultando em uma diferenciação mais clara entre objetos e seus fundos. Para abordar o desafio (ii), propomos uma estratégia de Amostragem Focada em Caixas usando caixas 2D para gerar distribuição de probabilidade de objeto em espaços 3D, permitindo amostragem probabilística eficaz em 3D para reter mais blobs de objeto e reduzir blobs ruidosos de fundo. Beneficiando-se de nossos projetos, nosso 3DGS-DET supera significativamente o método NeRF baseado em SOTA, NeRF-Det, alcançando melhorias de +6,6 no mAP@0,25 e +8,1 no mAP@0,5 para o conjunto de dados ScanNet, e impressionantes +31,5 no mAP@0,25 para o conjunto de dados ARKITScenes.

5

Nem todos os Raciocinadores LLM são Criados Iguais
Not All LLM Reasoners Are Created Equal

Oct 2
ByArian Hosseini, Alessandro Sordoni, Daniel Toyama, Aaron Courville, Rishabh Agarwal
29
2

Estudamos a profundidade das capacidades de resolução de problemas de matemática do ensino fundamental (GSM) dos LLMs. Para isso, avaliamos seu desempenho em pares de problemas de matemática existentes juntos, de modo que a resposta ao segundo problema depende de responder corretamente ao primeiro problema. Nossas descobertas revelam uma lacuna significativa de raciocínio na maioria dos LLMs, ou seja, diferença de desempenho entre resolver os pares compostos e resolver cada questão independentemente. Essa lacuna é mais pronunciada em modelos menores, mais eficientes em custos e especializados em matemática. Além disso, receitas de ajuste de instruções e geração de código têm efeitos variados entre os tamanhos dos LLMs, enquanto o ajuste fino em GSM pode levar ao overfitting da tarefa. Nossa análise indica que grandes lacunas de raciocínio não ocorrem por vazamento de conjunto de testes, mas devido a distração de contexto adicional e raciocínio deficiente de segundo nível. No geral, os LLMs exibem diferenças sistemáticas em suas habilidades de raciocínio, apesar do que seu desempenho em benchmarks padrão indica.

6

LEOPARD: Um Modelo de Linguagem Visual para Tarefas Multifotográficas Ricas em Texto
LEOPARD : A Vision Language Model For Text-Rich Multi-Image Tasks

Oct 2
ByMengzhao Jia, Wenhao Yu, Kaixin Ma, Tianqing Fang, Zhihan Zhang, Siru Ouyang, Hongming Zhang, Meng Jiang, Dong Yu
26
5

Imagens ricas em texto, onde o texto serve como o elemento visual central orientando a compreensão geral, são prevalentes em aplicações do mundo real, como slides de apresentação, documentos digitalizados e capturas de tela de páginas da web. Tarefas envolvendo múltiplas imagens ricas em texto são especialmente desafiadoras, pois exigem não apenas a compreensão do conteúdo de imagens individuais, mas também o raciocínio sobre inter-relações e fluxos lógicos entre múltiplas entradas visuais. Apesar da importância desses cenários, os atuais modelos de linguagem multimodais de grande escala (MLLMs) enfrentam dificuldades para lidar com tarefas desse tipo devido a dois desafios principais: (1) a escassez de conjuntos de dados de ajuste de instruções de alta qualidade para cenários de múltiplas imagens ricas em texto e (2) a dificuldade em equilibrar a resolução da imagem com o comprimento da sequência de recursos visuais. Para enfrentar esses desafios, propomos \NossoMétodo, um MLLM projetado especificamente para lidar com tarefas de visão e linguagem envolvendo múltiplas imagens ricas em texto. Primeiramente, curamos cerca de um milhão de dados de ajuste de instruções multimodais de alta qualidade, adaptados para cenários de múltiplas imagens ricas em texto. Em segundo lugar, desenvolvemos um módulo de codificação de múltiplas imagens em alta resolução adaptativa para otimizar dinamicamente a alocação do comprimento da sequência visual com base nas proporções originais e resoluções das imagens de entrada. Experimentos em uma ampla gama de benchmarks demonstram as capacidades superiores do nosso modelo em avaliações de múltiplas imagens ricas em texto e o desempenho competitivo em avaliações de domínio geral.

7

HelpSteer2-Preference: Complementando Avaliações com Preferências
HelpSteer2-Preference: Complementing Ratings with Preferences

Oct 2
ByZhilin Wang, Alexander Bukharin, Olivier Delalleau, Daniel Egert, Gerald Shen, Jiaqi Zeng, Oleksii Kuchaiev, Yi Dong
24
5

Os modelos de recompensa são fundamentais para alinhar os modelos a seguir instruções e geralmente são treinados seguindo um dos dois paradigmas populares: estilo Bradley-Terry ou estilo de Regressão. No entanto, não há evidências de que um seja melhor que o outro, quando adequadamente comparados com os dados. Isso ocorre principalmente porque essas abordagens requerem dados coletados em formatos diferentes (mas incompatíveis), o que significa que dados adequadamente comparados não estão disponíveis nos conjuntos de dados públicos existentes. Para enfrentar esse problema, lançamos anotações de preferência (projetadas para treinamento Bradley-Terry) para complementar as classificações existentes (projetadas para treinamento no estilo de Regressão) no conjunto de dados HelpSteer2. Para melhorar a interpretabilidade dos dados, as anotações de preferência são acompanhadas de justificativas escritas por humanos. Usando esses dados, realizamos a primeira comparação direta entre os modelos Bradley-Terry e de Regressão quando adequadamente comparados com os dados. Com base nos insights derivados de tal comparação, propomos uma abordagem inovadora para combinar a modelagem de recompensa Bradley-Terry e de Regressão. Um modelo Llama-3.1-70B-Instruct ajustado com essa abordagem alcança uma pontuação de 94,1 no RewardBench, emergindo no topo de mais de 140 modelos de recompensa até 1 de outubro de 2024. Também demonstramos a eficácia desse modelo de recompensa em alinhar os modelos a seguir instruções em RLHF. Disponibilizamos este conjunto de dados de código aberto (licença CC-BY-4.0) em https://huggingface.co/datasets/nvidia/HelpSteer2 e lançamos abertamente o Modelo de Recompensa treinado em https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Reward.

8

Agregação Seletiva para Adaptação de Baixa Ordem em Aprendizado Federado
Selective Aggregation for Low-Rank Adaptation in Federated Learning

Oct 2
ByPengxin Guo, Shuang Zeng, Yanran Wang, Huijie Fan, Feifei Wang, Liangqiong Qu
18
3

Investigamos LoRA no aprendizado federado através da análise da assimetria das matrizes aprendidas A e B. Ao fazê-lo, descobrimos que as matrizes A são responsáveis por aprender conhecimento geral, enquanto as matrizes B se concentram em capturar conhecimento específico do cliente. Com base nessa descoberta, introduzimos a Adaptação de Baixa Patente Compartilhada Federada (FedSA-LoRA), que utiliza duas matrizes treináveis de baixa patente A e B para modelar a atualização de pesos, mas apenas as matrizes A são compartilhadas com o servidor para agregação. Além disso, aprofundamos a relação entre as matrizes A e B aprendidas em outras variantes de LoRA, como rsLoRA e VeRA, revelando um padrão consistente. Consequentemente, estendemos nosso método FedSA-LoRA para essas variantes de LoRA, resultando em FedSA-rsLoRA e FedSA-VeRA. Dessa forma, estabelecemos um paradigma geral para integrar LoRA com FL, oferecendo orientação para trabalhos futuros sobre variantes subsequentes de LoRA combinadas com FL. Resultados experimentais extensivos em tarefas de compreensão e geração de linguagem natural demonstram a eficácia do método proposto.

9

A Preferência de Alinhamento é Sempre a Melhor Opção para Melhorar a Tradução Baseada em LLM? Uma Análise Empírica
Is Preference Alignment Always the Best Option to Enhance LLM-Based Translation? An Empirical Analysis

Sep 30
ByHippolyte Gisserot-Boukhlef, Ricardo Rei, Emmanuel Malherbe, Céline Hudelot, Pierre Colombo, Nuno M. Guerreiro
16
2

As métricas neurais para avaliação de tradução automática (TA) tornaram-se cada vez mais proeminentes devido à sua correlação superior com julgamentos humanos em comparação com métricas lexicais tradicionais. Os pesquisadores têm utilizado, portanto, métricas neurais por meio de estratégias de decodificação informadas pela qualidade, alcançando melhores resultados do que métodos baseados em probabilidade. Com o surgimento de Modelos de Linguagem Grandes (LLMs), técnicas de alinhamento baseadas em preferências têm recebido atenção por seu potencial de aprimorar a qualidade da tradução otimizando os pesos do modelo diretamente com base em preferências induzidas por estimadores de qualidade. Este estudo concentra-se na Otimização de Preferência Contrastiva (CPO) e conduz experimentos extensivos para avaliar o impacto do alinhamento baseado em preferências na qualidade da tradução. Nossas descobertas indicam que, embora o CPO supere consistentemente o Ajuste Fino Supervisionado (SFT) em dados de alta qualidade em relação à métrica de alinhamento, pode levar a instabilidade em métricas de avaliação subsequentes, especialmente entre as neurais e as lexicais. Além disso, demonstramos que depender exclusivamente do modelo base para gerar traduções candidatas alcança desempenho comparável ao uso de múltiplos sistemas externos, garantindo melhor consistência em métricas subsequentes.

10

ComfyGen: Fluxos de Trabalho Adaptativos para Geração de Texto para Imagem
ComfyGen: Prompt-Adaptive Workflows for Text-to-Image Generation

Oct 2
ByRinon Gal, Adi Haviv, Yuval Alaluf, Amit H. Bermano, Daniel Cohen-Or, Gal Chechik
16
2

O uso prático da geração de texto para imagem evoluiu de modelos simples e monolíticos para fluxos de trabalho complexos que combinam múltiplos componentes especializados. Embora abordagens baseadas em fluxo de trabalho possam resultar em uma melhor qualidade de imagem, a criação de fluxos de trabalho eficazes requer uma expertise significativa, devido ao grande número de componentes disponíveis, sua complexa interdependência e sua dependência da instrução de geração. Aqui, introduzimos a nova tarefa de geração de fluxo de trabalho adaptativo à instrução, onde o objetivo é adaptar automaticamente um fluxo de trabalho para cada instrução do usuário. Propomos duas abordagens baseadas em LLM para lidar com essa tarefa: um método baseado em ajuste que aprende a partir de dados de preferência do usuário, e um método sem necessidade de treinamento que utiliza o LLM para selecionar fluxos existentes. Ambas as abordagens resultam em uma melhor qualidade de imagem quando comparadas a modelos monolíticos ou fluxos genéricos independentes da instrução. Nosso trabalho demonstra que a previsão de fluxo dependente da instrução oferece um novo caminho para melhorar a qualidade da geração de texto para imagem, complementando as direções de pesquisa existentes no campo.

11

MOSEL: 950.000 horas de dados de fala para treinamento de modelos de fundação de fala de código aberto em idiomas da UE
MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages

Oct 1
ByMarco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri
15
2

O surgimento de modelos fundamentais (FMs), juntamente com esforços regulatórios que abordam seus riscos e impactos, tem despertado um interesse significativo em modelos de código aberto. No entanto, os modelos de fala existentes (SFMs) não estão em total conformidade com os princípios de código aberto, mesmo que afirmem o contrário, uma vez que nenhum SFM existente disponibiliza publicamente os pesos do modelo, o código e os dados de treinamento sob termos de código aberto. Neste trabalho, damos o primeiro passo para preencher essa lacuna ao nos concentrarmos nas 24 línguas oficiais da União Europeia (UE). Coletamos dados de treinamento adequados por meio de levantamento de conjuntos de dados de reconhecimento automático de fala e corpora de fala não rotulados sob licenças compatíveis com código aberto, totalizando 950 mil horas. Além disso, disponibilizamos transcrições automáticas para 441 mil horas de dados não rotulados sob a licença permissiva CC-BY, facilitando assim a criação de SFMs de código aberto para as línguas da UE.

12

Quantificação da Complexidade de Generalização para Modelos de Linguagem Grandes
Quantifying Generalization Complexity for Large Language Models

Oct 2
ByZhenting Qi, Hongyin Luo, Xuliang Huang, Zhuokai Zhao, Yibo Jiang, Xiangjun Fan, Himabindu Lakkaraju, James Glass
13
2

Embora os grandes modelos de linguagem (LLMs) tenham demonstrado capacidades excepcionais em compreender consultas complexas e realizar tarefas sofisticadas, suas habilidades de generalização frequentemente estão profundamente ligadas à memorização, exigindo uma avaliação mais precisa. Para enfrentar esse desafio, apresentamos o Scylla, um framework de avaliação dinâmica que mede quantitativamente as habilidades de generalização dos LLMs. O Scylla desembaraça a generalização da memorização ao avaliar o desempenho do modelo tanto em dados de distribuição (ID) quanto em dados fora da distribuição (OOD) por meio de 20 tarefas em 5 níveis de complexidade. Através de experimentos extensivos, descobrimos uma relação não monótona entre a complexidade da tarefa e a diferença de desempenho entre dados ID e OOD, que chamamos de vale da generalização. Especificamente, esse fenômeno revela um limiar crítico - denominado complexidade crítica - onde a dependência de comportamentos não generalizáveis atinge o pico, indicando o limite das capacidades de generalização dos LLMs. Conforme o tamanho do modelo aumenta, a complexidade crítica se desloca para níveis mais altos de complexidade da tarefa, sugerindo que modelos maiores podem lidar com tarefas de raciocínio mais complexas antes de dependerem excessivamente da memorização. Aproveitando o Scylla e o conceito de complexidade crítica, avaliamos 28 LLMs, incluindo modelos de código aberto como as famílias LLaMA e Qwen, e modelos de código fechado como Claude e GPT, fornecendo uma avaliação mais robusta e estabelecendo uma compreensão mais clara das capacidades de generalização dos LLMs.

13

FactAlign: Alinhamento de Factualidade de Longo Formato de Modelos de Linguagem Grandes
FactAlign: Long-form Factuality Alignment of Large Language Models

Oct 2
ByChao-Wei Huang, Yun-Nung Chen
9
2

Grandes modelos de linguagem têm demonstrado um potencial significativo como as próximas gerações de motores de acesso à informação. No entanto, sua confiabilidade é prejudicada por problemas de alucinação e geração de conteúdo não factual. Isso é particularmente problemático em respostas de longo formato, onde avaliar e garantir a precisão factual é complexo. Neste artigo, abordamos essa lacuna propondo o FactAlign, um novo framework de alinhamento projetado para aprimorar a factualidade das respostas de longo formato dos LLMs, mantendo sua utilidade. Apresentamos o fKTO, um algoritmo de alinhamento de nível de sentença refinado que estende o método de alinhamento Kahneman-Tversky Optimization (KTO). Aproveitando os avanços recentes na avaliação automática de factualidade, o FactAlign utiliza avaliações de factualidade refinadas para orientar o processo de alinhamento. Nossos experimentos em prompts de domínio aberto e perguntas de busca de informações demonstram que o FactAlign melhora significativamente a precisão factual das respostas dos LLMs, ao mesmo tempo em que melhora sua utilidade. Análises adicionais identificam que o FactAlign é capaz de treinar os LLMs para fornecerem mais informações sem perder precisão factual, melhorando assim o escore F1 factual. Nosso código-fonte, conjuntos de dados e modelos treinados estão disponíveis publicamente em https://github.com/MiuLab/FactAlign

14

Modelagem de Preferência Geral com Representações de Preferência para Alinhar Modelos de Linguagem
General Preference Modeling with Preference Representations for Aligning Language Models

Oct 3
ByYifan Zhang, Ge Zhang, Yue Wu, Kangping Xu, Quanquan Gu
8
4

Modelar preferências humanas é crucial para alinhar modelos fundamentais com valores humanos. Métodos tradicionais de modelagem de recompensa, como o modelo de recompensa Bradley-Terry (BT), são limitados em expressividade, especialmente na abordagem de preferências intransitivas. Embora modelos supervisionados de preferência de pares (PairPM) possam expressar preferências gerais, sua implementação é altamente ad hoc e não pode garantir uma probabilidade consistente de preferência entre pares comparados. Além disso, eles impõem altos custos computacionais devido à sua complexidade de consulta quadrática ao comparar múltiplas respostas. Neste artigo, introduzimos a aprendizagem de representação de preferência, uma abordagem que incorpora respostas em um espaço latente para capturar estruturas de preferência complexas de forma eficiente, alcançando uma complexidade de consulta linear. Adicionalmente, propomos a Otimização de Preferência Geral (GPO) baseada em escores de preferência, que generaliza a aprendizagem por reforço baseada em recompensa a partir do feedback humano. Resultados experimentais mostram que nosso modelo de representação de preferência geral (GPM) supera o modelo de recompensa BT no benchmark RewardBench com uma margem de até 5,6% e modela efetivamente preferências cíclicas onde qualquer modelo de recompensa BT se comporta como uma suposição aleatória. Além disso, avaliações em tarefas subsequentes como AlpacaEval2.0 e MT-Bench, seguindo o pós-treinamento do modelo de preferência geral com GPO, revelam melhorias de desempenho substanciais com margens de até 9,3%. Essas descobertas indicam que nosso método pode aprimorar o alinhamento de modelos fundamentais com valores humanos sutis. O código está disponível em https://github.com/general-preference/general-preference-model.

15

EmoKnob: Aprimorando a Clonagem de Voz com Controle de Emoção Detalhado
EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control

Oct 1
ByHaozhe Chen, Run Chen, Julia Hirschberg
7
2

Embora os avanços recentes na tecnologia de Texto para Fala (TTS) produzam uma fala natural e expressiva, eles carecem da opção para os usuários selecionarem emoções e controlarem a intensidade. Propomos o EmoKnob, um framework que permite o controle de emoções refinado na síntese de fala com amostras demonstrativas de poucas emoções arbitrárias. Nosso framework aproveita o espaço de representação do locutor expressivo viabilizado pelos avanços recentes em modelos fundamentais de clonagem de voz. Com base na capacidade de poucas amostras do nosso framework de controle de emoções, propomos dois métodos para aplicar controle de emoções em emoções descritas por texto aberto, possibilitando uma interface intuitiva para controlar uma ampla gama de emoções sutis. Para facilitar um campo de síntese de fala emocional mais sistemático, introduzimos um conjunto de métricas de avaliação projetadas para avaliar rigorosamente a fidelidade e reconhecibilidade de frameworks de controle de emoções. Através de avaliações objetivas e subjetivas, mostramos que nosso framework de controle de emoções incorpora efetivamente emoções na fala e supera a expressividade emocional dos serviços comerciais de TTS.

16

E.T. Bench: Rumo à Compreensão Aberta de Vídeo e Linguagem em Nível de Evento
E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding

Sep 26
ByYe Liu, Zongyang Ma, Zhongang Qi, Yang Wu, Ying Shan, Chang Wen Chen
7
2

Os avanços recentes em Modelos de Linguagem em Vídeo de Grande Escala (Video-LLMs) têm demonstrado seu grande potencial em compreensão de vídeo de propósito geral. Para verificar a importância desses modelos, uma série de benchmarks foram propostos para diagnosticar suas capacidades em diferentes cenários. No entanto, os benchmarks existentes avaliam os modelos apenas por meio de perguntas e respostas em nível de vídeo, carecendo de uma avaliação em nível de evento detalhada e diversidade de tarefas. Para preencher essa lacuna, apresentamos o E.T. Bench (Benchmark de Compreensão de Vídeo em Nível de Evento e Sensível ao Tempo), um benchmark em grande escala e de alta qualidade para compreensão de vídeo em nível de evento aberto. Categorizado em uma taxonomia de tarefas de 3 níveis, o E.T. Bench engloba 7,3 mil amostras em 12 tarefas com 7 mil vídeos (251,4 horas de duração total) em 8 domínios, fornecendo avaliações abrangentes. Avaliamos extensivamente 8 Modelos de Linguagem em Imagem e 12 Modelos de Linguagem em Vídeo em nosso benchmark, e os resultados revelam que os modelos de última geração para compreensão em nível grosseiro (nível de vídeo) têm dificuldade em resolver nossas tarefas detalhadas, como ancorar eventos de interesse dentro de vídeos, em grande parte devido ao curto comprimento do contexto do vídeo, representações de tempo inadequadas e falta de dados de treinamento multi-evento. Concentrando-se nessas questões, propomos ainda um modelo de referência robusto, E.T. Chat, juntamente com um conjunto de dados de ajuste de instruções E.T. Instruct 164K adaptado para compreensão em nível de evento detalhado. Nossa solução simples, porém eficaz, demonstra desempenho superior em múltiplos cenários.

17

EVER: Renderização Exata de Elipsoides Volumétricos para Síntese de Visualização em Tempo Real
EVER: Exact Volumetric Ellipsoid Rendering for Real-time View Synthesis

Oct 2
ByAlexander Mai, Peter Hedman, George Kopanas, Dor Verbin, David Futschik, Qiangeng Xu, Falko Kuester, Jon Barron, Yinda Zhang
6
2

Apresentamos o Rendering de Elipsoide Volumétrico Exato (EVER), um método para renderização volumétrica de emissão diferenciável em tempo real. Ao contrário da abordagem recente baseada em rasterização pelo Splatting Gaussiano 3D (3DGS), nossa representação baseada em primitivas permite uma renderização volumétrica exata, em vez de composição alfa de painéis 3D gaussianos. Dessa forma, ao contrário do 3DGS, nossa formulação não sofre de artefatos de popping e densidade dependente da visualização, mas ainda alcança taxas de quadros de aproximadamente 30 FPS em 720p em uma NVIDIA RTX4090. Como nossa abordagem é construída sobre traçado de raios, ela permite efeitos como desfoque de desfoque e distorção da câmera (por exemplo, de câmeras olho de peixe), que são difíceis de alcançar por rasterização. Mostramos que nosso método é mais preciso, com menos problemas de mistura do que o 3DGS e trabalhos subsequentes sobre renderização consistente com a visualização, especialmente em cenas desafiadoras em grande escala do conjunto de dados Zip-NeRF, onde alcança os resultados mais nítidos entre as técnicas em tempo real.

18

VLMGuard: Defendendo VLMs contra Prompts Maliciosos por meio de Dados Não Rotulados
VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data

Oct 1
ByXuefeng Du, Reshmi Ghosh, Robert Sim, Ahmed Salem, Vitor Carvalho, Emily Lawton, Yixuan Li, Jack W. Stokes
5
2

Os modelos de visão e linguagem (VLMs) são essenciais para a compreensão contextual de informações visuais e textuais. No entanto, sua vulnerabilidade a entradas manipuladas de forma adversarial apresenta riscos significativos, resultando em saídas comprometidas e levantando preocupações sobre a confiabilidade nas aplicações integradas de VLM. Detectar esses estímulos maliciosos é, portanto, crucial para manter a confiança nas gerações de VLM. Um grande desafio no desenvolvimento de um classificador de estímulos de proteção é a falta de uma grande quantidade de dados rotulados como benignos e maliciosos. Para abordar o problema, apresentamos o VLMGuard, um novo framework de aprendizado que aproveita os estímulos de usuários não rotulados no ambiente selvagem para detecção de estímulos maliciosos. Esses estímulos não rotulados, que surgem naturalmente quando os VLMs são implantados no mundo aberto, consistem em informações benignas e maliciosas. Para aproveitar os dados não rotulados, apresentamos uma pontuação automatizada de estimativa de malícia para distinguir entre amostras benignas e maliciosas dentro dessa mistura não rotulada, permitindo assim o treinamento de um classificador binário de estímulos. Notavelmente, nosso framework não requer anotações humanas adicionais, oferecendo forte flexibilidade e praticidade para aplicações do mundo real. Experimentos extensos mostram que o VLMGuard alcança resultados de detecção superiores, superando significativamente os métodos de ponta. Aviso Legal: Este artigo pode conter exemplos ofensivos; a discrição do leitor é aconselhada.

19

BordIRlines: Um Conjunto de Dados para Avaliar a Geração Aprimorada por Recuperação Cruzada de Linguagens
BordIRlines: A Dataset for Evaluating Cross-lingual Retrieval-Augmented Generation

Oct 2
ByBryan Li, Samar Haider, Fiona Luo, Adwait Agashe, Chris Callison-Burch
5
4

Grandes modelos de linguagem se destacam na geração criativa, mas ainda lutam com os problemas de alucinação e viés. Enquanto a geração aumentada por recuperação (RAG) fornece um framework para fundamentar as respostas dos LLMs em informações precisas e atualizadas, ainda levanta a questão do viés: quais fontes devem ser selecionadas para inclusão no contexto? E como deve ser ponderada sua importância? Neste artigo, estudamos o desafio do RAG multilíngue e apresentamos um conjunto de dados para investigar a robustez dos sistemas existentes ao responder a consultas sobre disputas geopolíticas, que existem no cruzamento de fronteiras linguísticas, culturais e políticas. Nosso conjunto de dados é proveniente de páginas da Wikipedia contendo informações relevantes para as consultas fornecidas e investigamos o impacto da inclusão de contexto adicional, bem como a composição desse contexto em termos de idioma e fonte, na resposta de um LLM. Nossos resultados mostram que os sistemas RAG existentes continuam a ser desafiados por casos de uso multilíngues e sofrem de falta de consistência quando são fornecidas com informações concorrentes em vários idiomas. Apresentamos estudos de caso para ilustrar essas questões e delineamos passos para futuras pesquisas abordarem esses desafios. Disponibilizamos nosso conjunto de dados e código publicamente em https://github.com/manestay/bordIRlines.

20

Planejamento Robótico de Longo Prazo em Malha Fechada por Meio da Modelagem de Sequência de Equilíbrio
Closed-loop Long-horizon Robotic Planning via Equilibrium Sequence Modeling

Oct 2
ByJinghan Li, Zhicheng Sun, Fei Li, Cao Sheng, Jiazhong Yu, Yadong Mu
4
2

Na tentativa de fazer com que robôs autônomos ajam, o planejamento de tarefas é um desafio importante que requer a tradução de descrições de tarefas em níveis elevados em sequências de ações de longo prazo. Apesar dos avanços recentes em agentes de modelos de linguagem, eles continuam propensos a erros de planejamento e limitados em sua capacidade de planejar com antecedência. Para lidar com essas limitações no planejamento robótico, defendemos um esquema de auto-refinamento que refina iterativamente um plano inicial até que um equilíbrio seja alcançado. Notavelmente, esse processo pode ser otimizado de ponta a ponta de uma perspectiva analítica sem a necessidade de curar verificadores adicionais ou modelos de recompensa, permitindo-nos treinar planejadores de auto-refinamento de maneira simples, em um estilo de aprendizado supervisionado. Enquanto isso, um procedimento de modelagem de sequência de equilíbrio aninhado é concebido para um planejamento eficiente em loop fechado que incorpora feedback útil do ambiente (ou de um modelo de mundo interno). Nosso método é avaliado no benchmark VirtualHome-Env, mostrando um desempenho avançado com melhor escalabilidade para computação de inferência. O código está disponível em https://github.com/Singularity0104/equilibrium-planner.

21

HarmoniCa: Harmonizando Treinamento e Inferência para um Melhor Cache de Recursos em Aceleração de Transformadores de Difusão
HarmoniCa: Harmonizing Training and Inference for Better Feature Cache in Diffusion Transformer Acceleration

Oct 2
ByYushi Huang, Zining Wang, Ruihao Gong, Jing Liu, Xinjie Zhang, Jinyang Guo, Xianglong Liu, Jun Zhang
4
2

Os Transformadores de Difusão (DiTs) ganharam destaque pela escalabilidade excepcional e desempenho extraordinário em tarefas generativas. No entanto, seus consideráveis custos de inferência impedem a implantação prática. O mecanismo de cache de características, que envolve armazenar e recuperar cálculos redundantes ao longo dos passos de tempo, promete reduzir o tempo de inferência por passo nos modelos de difusão. A maioria dos métodos de cache existentes para DiT são projetados manualmente. Embora a abordagem baseada em aprendizado tente otimizar estratégias de forma adaptativa, ela sofre de discrepâncias entre treinamento e inferência, o que prejudica tanto o desempenho quanto a taxa de aceleração. Após uma análise detalhada, identificamos que essas discrepâncias derivam principalmente de dois aspectos: (1) Desconsideração do Passo de Tempo Anterior, onde o treinamento ignora o efeito do uso de cache nos passos de tempo anteriores, e (2) Desajuste de Objetivo, onde o alvo de treinamento (alinhar o ruído previsto em cada passo de tempo) se desvia do objetivo da inferência (gerar a imagem de alta qualidade). Para mitigar essas discrepâncias, propomos o HarmoniCa, um método inovador que harmoniza treinamento e inferência com um novo framework de Cache baseado em aprendizado construído sobre Treinamento de Desnublamento Passo a Passo (SDT) e Objetivo Guiado por Proxy de Erro de Imagem (IEPO). Comparado ao paradigma de treinamento tradicional, o recém-proposto SDT mantém a continuidade do processo de desnublamento, permitindo que o modelo aproveite informações de passos de tempo anteriores durante o treinamento, de forma semelhante ao que ocorre durante a inferência. Além disso, projetamos o IEPO, que integra um mecanismo de proxy eficiente para aproximar o erro final da imagem causado pelo reuso da característica em cache. Portanto, o IEPO ajuda a equilibrar a qualidade final da imagem e a utilização do cache, resolvendo o problema do treinamento que considera apenas o impacto do uso de cache na saída prevista em cada passo de tempo.

22

Antigo Otimizador, Nova Norma: Uma Antologia
Old Optimizer, New Norm: An Anthology

Sep 30
ByJeremy Bernstein, Laker Newhouse
3
2

Os otimizadores de aprendizado profundo são frequentemente motivados por uma combinação de teoria convexa e aproximada de segunda ordem. Selecionamos três desses métodos - Adam, Shampoo e Prodigy - e argumentamos que cada método pode, em vez disso, ser compreendido como um método de primeira ordem sem assumir convexidade. Na verdade, após desativar as médias móveis exponenciais, cada método é equivalente a descida mais íngreme sob uma norma específica. Ao generalizar essa observação, traçamos um novo espaço de design para algoritmos de treinamento. Normas de operador diferentes devem ser atribuídas a tensores diferentes com base no papel que o tensor desempenha dentro da rede. Por exemplo, enquanto camadas lineares e de incorporação podem ter o mesmo espaço de peso de R^{mtimes n}, essas camadas desempenham papéis diferentes e devem ser atribuídas normas diferentes. Esperamos que essa ideia de metrificar cuidadosamente a arquitetura neural possa levar a um treinamento mais estável, escalável e, de fato, mais rápido.

23

InfiniPot: Processamento de Contexto Infinito em LLMs com Restrição de Memória
InfiniPot: Infinite Context Processing on Memory-Constrained LLMs

Oct 2
ByMinsoo Kim, Kyuhong Shim, Jungwook Choi, Simyung Chang
3
2

Lidar com contextos de entrada longos continua a ser um desafio significativo para Modelos de Linguagem de Grande Escala (LLMs), especialmente em ambientes com recursos limitados, como dispositivos móveis. Nosso trabalho tem como objetivo abordar essa limitação ao introduzir o InfiniPot, um novo framework de controle de cache KV projetado para permitir que LLMs pré-treinados gerenciem sequências extensas dentro de restrições de memória fixas de forma eficiente, sem exigir treinamento adicional. O InfiniPot aproveita a Destilação Contínua de Contexto (CCD), um processo iterativo que comprime e retém informações essenciais por meio de métricas de importância inovadoras, mantendo efetivamente dados críticos mesmo sem acesso ao contexto futuro. Nossas avaliações abrangentes indicam que o InfiniPot supera significativamente modelos treinados para contextos longos em várias tarefas de PNL, estabelecendo sua eficácia e versatilidade. Este trabalho representa um avanço substancial para tornar os LLMs aplicáveis a uma gama mais ampla de cenários do mundo real.

24

SonicSim: Uma plataforma de simulação personalizável para processamento de fala em cenários de fontes sonoras em movimento.
SonicSim: A customizable simulation platform for speech processing in moving sound source scenarios

Oct 2
ByKai Li, Wendi Sang, Chang Zeng, Runxuan Yang, Guo Chen, Xiaolin Hu
2
2

A avaliação sistemática de modelos de separação e aprimoramento de fala sob condições de fonte sonora em movimento geralmente requer dados extensos que compreendem cenários diversos. No entanto, conjuntos de dados do mundo real frequentemente contêm dados insuficientes para atender aos requisitos de treinamento e avaliação dos modelos. Embora conjuntos de dados sintéticos ofereçam um volume maior de dados, suas simulações acústicas carecem de realismo. Consequentemente, nem conjuntos de dados do mundo real nem sintéticos atendem efetivamente às necessidades práticas. Para lidar com essas questões, apresentamos o SonicSim, um conjunto de ferramentas sintéticas projetado para gerar dados altamente personalizáveis para fontes sonoras em movimento. O SonicSim é desenvolvido com base na plataforma de simulação de IA incorporada, Habitat-sim, oferecendo ajustes em vários níveis, incluindo nível de cena, nível de microfone e nível de fonte, gerando assim dados sintéticos mais diversos. Aproveitando o SonicSim, construímos um conjunto de dados de referência de fonte sonora em movimento, o SonicSet, usando o Librispeech, o Conjunto de Dados Freesound 50k (FSD50K) e o Free Music Archive (FMA), e 90 cenas do Matterport3D para avaliar modelos de separação e aprimoramento de fala. Além disso, para validar as diferenças entre dados sintéticos e dados do mundo real, selecionamos aleatoriamente 5 horas de dados brutos sem reverberação do conjunto de validação do SonicSet para gravar um conjunto de dados de separação de fala do mundo real, que foi então comparado com os conjuntos de dados sintéticos correspondentes. Da mesma forma, utilizamos o conjunto de dados de aprimoramento de fala do mundo real, RealMAN, para validar a diferença acústica entre outros conjuntos de dados sintéticos e o conjunto de dados SonicSet para aprimoramento de fala. Os resultados indicam que os dados sintéticos gerados pelo SonicSim podem generalizar efetivamente para cenários do mundo real. A demonstração e o código estão disponíveis publicamente em https://cslikai.cn/SonicSim/.

Oct 2
Oct 3
Oct 4