ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

CLIMB: Amostragem Iterativa de Mistura de Dados Baseada em Agrupamento para Pré-treinamento de Modelos de Linguagem
CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Apr 17
ByShizhe Diao, Yu Yang, Yonggan Fu, Xin Dong, Dan Su, Markus Kliegl, Zijia Chen, Peter Belcak, Yoshi Suhara, Hongxu Yin, Mostofa Patwary, Yingyan, Lin, Jan Kautz, Pavlo Molchanov
93
2

Os conjuntos de dados de pré-treinamento são tipicamente coletados a partir de conteúdo da web e carecem de divisões de domínio inerentes. Por exemplo, conjuntos de dados amplamente utilizados, como o Common Crawl, não incluem rótulos de domínio explícitos, enquanto a curadoria manual de conjuntos de dados rotulados, como The Pile, é trabalhosa. Consequentemente, identificar uma mistura ideal de dados para pré-treinamento continua sendo um problema desafiador, apesar de seus benefícios significativos para o desempenho do pré-treinamento. Para enfrentar esses desafios, propomos o CLustering-based Iterative Data Mixture Bootstrapping (CLIMB), uma estrutura automatizada que descobre, avalia e refina misturas de dados em um cenário de pré-treinamento. Especificamente, o CLIMB incorpora e agrupa conjuntos de dados em larga escala em um espaço semântico e, em seguida, busca iterativamente por misturas ideais usando um modelo proxy menor e um preditor. Quando treinado continuamente em 400 bilhões de tokens com essa mistura, nosso modelo de 1 bilhão supera o estado da arte Llama-3.2-1B em 2,0%. Além disso, observamos que a otimização para um domínio específico (por exemplo, Ciências Sociais) resulta em uma melhoria de 5% em relação à amostragem aleatória. Por fim, apresentamos o ClimbLab, um corpus filtrado de 1,2 trilhão de tokens com 20 clusters como um ambiente de pesquisa, e o ClimbMix, um conjunto de dados compacto, porém poderoso, de 400 bilhões de tokens projetado para um pré-treinamento eficiente que oferece desempenho superior sob um orçamento igual de tokens. Analisamos a mistura final de dados, elucidando as características de uma mistura ideal de dados. Nossos dados estão disponíveis em: https://research.nvidia.com/labs/lpr/climb/

2

Amostragem por Antidestilação
Antidistillation Sampling

Apr 17
ByYash Savani, Asher Trockman, Zhili Feng, Avi Schwarzschild, Alexander Robey, Marc Finzi, J. Zico Kolter
59
4

Modelos de fronteira que geram traços de raciocínio estendidos produzem inadvertidamente sequências ricas de tokens que podem facilitar a destilação de modelos. Reconhecendo essa vulnerabilidade, os proprietários de modelos podem buscar estratégias de amostragem que limitem a eficácia da destilação sem comprometer o desempenho do modelo. A amostragem antidestilação oferece exatamente essa capacidade. Ao modificar estrategicamente a distribuição de probabilidade do próximo token de um modelo, a amostragem antidestilação contamina os traços de raciocínio, tornando-os significativamente menos eficazes para a destilação, enquanto preserva a utilidade prática do modelo. Para mais detalhes, consulte https://antidistillation.com.

3

Empacotamento do Contexto de Quadros de Entrada em Modelos de Predição de Próximo Quadro para Geração de Vídeo
Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Apr 17
ByLvmin Zhang, Maneesh Agrawala
51
3

Apresentamos uma estrutura de rede neural, o FramePack, para treinar modelos de previsão de próximo quadro (ou seção de próximo quadro) para geração de vídeo. O FramePack compacta os quadros de entrada para tornar o comprimento do contexto do transformer um número fixo, independentemente da duração do vídeo. Como resultado, conseguimos processar um grande número de quadros usando difusão de vídeo com um gargalo de computação semelhante ao da difusão de imagem. Isso também torna os tamanhos de lote de treinamento de vídeo significativamente maiores (os tamanhos de lote se tornam comparáveis ao treinamento de difusão de imagem). Também propomos um método de amostragem anti-deriva que gera quadros em ordem temporal invertida com pontos finais estabelecidos precocemente para evitar viés de exposição (acúmulo de erros ao longo das iterações). Por fim, mostramos que os modelos existentes de difusão de vídeo podem ser ajustados com o FramePack, e sua qualidade visual pode ser aprimorada, pois a previsão de próximo quadro suporta escalonadores de difusão mais equilibrados com etapas de deslocamento de fluxo menos extremas.

4

Gerar, mas Verificar: Reduzindo Alucinações em Modelos Visão-Linguagem com Reamostragem Retrospectiva
Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling

Apr 17
ByTsung-Han Wu, Heekyung Lee, Jiaxin Ge, Joseph E. Gonzalez, Trevor Darrell, David M. Chan
39
2

Modelos Visão-Linguagem (VLMs) se destacam na compreensão visual, mas frequentemente sofrem com alucinações visuais, onde geram descrições de objetos, ações ou conceitos inexistentes, representando riscos significativos em aplicações críticas para a segurança. Os métodos existentes de mitigação de alucinações geralmente seguem um de dois paradigmas: ajuste de geração, que modifica o comportamento de decodificação para alinhar o texto com as entradas visuais, e verificação pós-fato, onde modelos externos avaliam e corrigem as saídas. Embora eficazes, os métodos de ajuste de geração frequentemente dependem de heurísticas e carecem de mecanismos de correção, enquanto a verificação pós-fato é complicada, geralmente exigindo múltiplos modelos e tendendo a rejeitar as saídas em vez de refiná-las. Neste trabalho, apresentamos REVERSE, uma estrutura unificada que integra treinamento consciente de alucinações com autoverificação em tempo real. Ao aproveitar um novo conjunto de dados de verificação de alucinações contendo mais de 1,3 milhão de amostras semissintéticas, juntamente com uma nova técnica de reamostragem retrospectiva em tempo de inferência, nossa abordagem permite que os VLMs detectem alucinações durante a geração e revisem dinamicamente essas alucinações. Nossas avaliações mostram que o REVERSE alcança a redução de alucinações de última geração, superando os melhores métodos existentes em até 12% no CHAIR-MSCOCO e 28% no HaloQuest. Nosso conjunto de dados, modelo e código estão disponíveis em: https://reverse-vlm.github.io.

5

Codificador de Percepção: Os melhores embeddings visuais não estão na saída da rede
Perception Encoder: The best visual embeddings are not at the output of the network

Apr 17
ByDaniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer
35
3

Apresentamos o Perception Encoder (PE), um codificador de última geração para compreensão de imagens e vídeos treinado por meio de aprendizado simples de visão e linguagem. Tradicionalmente, os codificadores visuais têm dependido de uma variedade de objetivos de pré-treinamento, cada um adaptado a tarefas específicas, como classificação, legendagem ou localização. Surpreendentemente, após escalonar nossa receita cuidadosamente ajustada de pré-treinamento de imagens e refiná-la com nosso robusto mecanismo de dados de vídeo, descobrimos que o treinamento contrastivo de visão e linguagem por si só pode produzir embeddings fortes e generalizáveis para todas essas tarefas subsequentes. Há apenas uma ressalva: esses embeddings estão ocultos nas camadas intermediárias da rede. Para extraí-los, introduzimos dois métodos de alinhamento: alinhamento de linguagem para modelagem multimodal de linguagem e alinhamento espacial para previsão densa. Juntamente com o ponto de verificação contrastivo central, nossa família de modelos PE alcança desempenho de última geração em uma ampla variedade de tarefas, incluindo classificação e recuperação de imagens e vídeos em zero-shot; perguntas e respostas sobre documentos, imagens e vídeos; e tarefas espaciais como detecção, estimativa de profundidade e rastreamento. Para promover pesquisas adicionais, estamos disponibilizando nossos modelos, código e um novo conjunto de dados de vídeos anotados sinteticamente e por humanos.

6

WORLDMEM: Simulação de Mundo Consistente em Longo Prazo com Memória
WORLDMEM: Long-term Consistent World Simulation with Memory

Apr 16
ByZeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan
35
2

A simulação de mundos tem ganhado popularidade crescente devido à sua capacidade de modelar ambientes virtuais e prever as consequências de ações. No entanto, a janela de contexto temporal limitada frequentemente leva a falhas na manutenção da consistência de longo prazo, especialmente na preservação da consistência espacial 3D. Neste trabalho, apresentamos o WorldMem, um framework que aprimora a geração de cenas com um banco de memória composto por unidades de memória que armazenam quadros de memória e estados (por exemplo, poses e timestamps). Ao empregar um mecanismo de atenção de memória que extrai efetivamente informações relevantes desses quadros de memória com base em seus estados, nosso método é capaz de reconstruir com precisão cenas previamente observadas, mesmo sob grandes variações de perspectiva ou intervalos temporais. Além disso, ao incorporar timestamps nos estados, nosso framework não apenas modela um mundo estático, mas também captura sua evolução dinâmica ao longo do tempo, permitindo tanto a percepção quanto a interação dentro do mundo simulado. Experimentos extensivos em cenários virtuais e reais validam a eficácia da nossa abordagem.

7

70% do Tamanho, 100% de Precisão: Compressão Sem Perdas de LLM para Inferência Eficiente em GPU via Float de Comprimento Dinâmico
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

Apr 15
ByTianyi Zhang, Yang Sui, Shaochen Zhong, Vipin Chaudhary, Xia Hu, Anshumali Shrivastava
31
5

Os Modelos de Linguagem de Grande Escala (LLMs) têm crescido rapidamente em tamanho, criando desafios significativos para a implantação eficiente em hardware com recursos limitados. Neste artigo, apresentamos o Dynamic-Length Float (DFloat11), uma estrutura de compressão sem perdas que reduz o tamanho dos LLMs em 30% enquanto preserva saídas que são idênticas bit a bit ao modelo original. O DFloat11 é motivado pela baixa entropia na representação de pesos BFloat16 dos LLMs, que revela uma ineficiência significativa no formato de armazenamento existente. Ao aplicar codificação de entropia, o DFloat11 atribui codificações de comprimento dinâmico aos pesos com base na frequência, alcançando compressão quase ótima em termos de informação sem qualquer perda de precisão. Para facilitar a inferência eficiente com codificações de comprimento dinâmico, desenvolvemos um kernel GPU personalizado para descompressão rápida online. Nosso design incorpora o seguinte: (i) decomposição de tabelas de consulta (LUTs) intensivas em memória em LUTs compactas que cabem na SRAM da GPU, (ii) um kernel de duas fases para coordenar as posições de leitura/escrita de threads usando variáveis auxiliares leves, e (iii) descompressão no nível de bloco de transformador para minimizar a latência. Experimentos em modelos recentes, incluindo Llama-3.1, Qwen-2.5 e Gemma-3, validam nossa hipótese de que o DFloat11 alcança uma redução de cerca de 30% no tamanho do modelo enquanto preserva saídas exatas bit a bit. Em comparação com uma alternativa potencial de descarregar partes de um modelo não comprimido para a CPU para atender às restrições de memória, o DFloat11 alcança uma taxa de transferência 1,9-38,8x maior na geração de tokens. Com um orçamento fixo de memória GPU, o DFloat11 permite comprimentos de contexto 5,3-13,17x maiores do que modelos não comprimidos. Notavelmente, nosso método permite inferência sem perdas do Llama-3.1-405B, um modelo de 810GB, em um único nó equipado com 8 GPUs de 80GB. Nosso código e modelos estão disponíveis em https://github.com/LeanModels/DFloat11.

8

Um Framework Estratégico de Coordenação de Pequenos LLMs Iguala Grandes LLMs na Síntese de Dados
A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis

Apr 11
ByXin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Conghui He, Lijun Wu
28
2

Embora a síntese e destilação de dados sejam estratégias promissoras para aprimorar modelos de linguagem pequenos, as abordagens atuais dependem fortemente de Modelos de Linguagem de Grande Escala (LLMs), que sofrem com altos custos computacionais, ineficiência ambiental e potenciais vieses herdados de arquiteturas monolíticas. Em contraste, LLMs menores são mais acessíveis e sustentáveis, mas suas capacidades individuais frequentemente ficam aquém na geração de dados de alta qualidade, diversificados e confiáveis. Inspirados por processos colaborativos humanos (por exemplo, revisão por pares), propomos um framework envolvendo múltiplos LLMs pequenos, chamado GRA, que agrega papéis especializados entre LLMs pequenos para refinamento iterativo e controle de qualidade, tipicamente alcançados por um único LLM grande. Neste framework colaborativo, múltiplos LLMs pequenos assumem papéis distintos — Gerador, Revisor e Árbitro — para simular um pipeline de síntese de dados inspirado na revisão por pares. O Gerador propõe amostras de dados iniciais, o Revisor critica sua qualidade e diversidade, e o Árbitro resolve conflitos para finalizar a saída. Ao decompor o processo de síntese em sub-tarefas especializadas, LLMs pequenos colaborativos podem alcançar paridade em nível de dados com a destilação baseada em LLMs grandes. Por meio de experimentos em múltiplos benchmarks, demonstramos que os dados produzidos pelo GRA igualam ou superam a qualidade das saídas de um único LLM grande, por exemplo, Qwen-2.5-72B-Instruct. Nossos resultados desafiam a necessidade de modelos monolíticos grandes para síntese de dados de alta qualidade, defendendo, em vez disso, a coordenação estratégica de agentes menores. Nossos conjuntos de dados, modelos e código estão publicamente disponíveis em https://github.com/GX-XinGao/GRA.

9

ChartQAPro: Um Benchmark Mais Diversificado e Desafiador para Resposta a Perguntas sobre Gráficos
ChartQAPro: A More Diverse and Challenging Benchmark for Chart Question Answering

Apr 7
ByAhmed Masry, Mohammed Saidul Islam, Mahir Ahmed, Aayush Bajaj, Firoz Kabir, Aaryaman Kartha, Md Tahmid Rahman Laskar, Mizanur Rahman, Shadikur Rahman, Mehrad Shahmohammadi, Megh Thakkar, Md Rizwan Parvez, Enamul Hoque, Shafiq Joty
25
2

Gráficos são onipresentes, pois as pessoas frequentemente os utilizam para analisar dados, responder perguntas e descobrir insights críticos. No entanto, realizar tarefas analíticas complexas com gráficos exige um esforço perceptivo e cognitivo significativo. Sistemas de Resposta a Perguntas sobre Gráficos (Chart Question Answering - CQA) automatizam esse processo, permitindo que modelos interpretem e raciocinem com representações visuais de dados. No entanto, benchmarks existentes, como o ChartQA, carecem de diversidade do mundo real e recentemente mostraram saturação de desempenho com modelos modernos de visão e linguagem de grande escala (Large Vision-Language Models - LVLMs). Para abordar essas limitações, introduzimos o ChartQAPro, um novo benchmark que inclui 1.341 gráficos de 157 fontes diversas, abrangendo vários tipos de gráficos, incluindo infográficos e painéis, e apresentando 1.948 perguntas de vários tipos, como múltipla escolha, conversacionais, hipotéticas e sem resposta, para melhor refletir os desafios do mundo real. Nossas avaliações com 21 modelos mostram uma queda substancial no desempenho dos LVLMs no ChartQAPro; por exemplo, o Claude Sonnet 3.5 pontua 90,5% no ChartQA, mas apenas 55,81% no ChartQAPro, destacando a complexidade do raciocínio com gráficos. Complementamos nossas descobertas com análises detalhadas de erros e estudos de ablação, identificando desafios e oportunidades-chave para avançar os LVLMs na compreensão e raciocínio com gráficos. Disponibilizamos o ChartQAPro em https://github.com/vis-nlp/ChartQAPro.

10

DMM: Construindo um Modelo Versátil de Geração de Imagens via Fusão de Modelos Baseada em Distilação
DMM: Building a Versatile Image Generation Model via Distillation-Based Model Merging

Apr 16
ByTianhui Song, Weixin Feng, Shuai Wang, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang
22
3

O sucesso dos modelos de geração de texto para imagem (T2I) impulsionou uma proliferação de diversos checkpoints de modelos ajustados a partir do mesmo modelo base em vários conjuntos de dados especializados. Essa produção massiva de modelos especializados introduz novos desafios relacionados à alta redundância de parâmetros e aos enormes custos de armazenamento, tornando necessário o desenvolvimento de métodos eficazes para consolidar e unificar as capacidades de diversos modelos poderosos em um único. Uma prática comum na fusão de modelos adota a interpolação linear estática no espaço de parâmetros para alcançar o objetivo de mistura de estilos. No entanto, essa abordagem ignora as características da tarefa de geração T2I, em que diversos modelos distintos abrangem uma variedade de estilos que podem levar a incompatibilidades e confusão no modelo resultante. Para resolver esse problema, introduzimos um pipeline de geração de imagens controlável por estilo, capaz de gerar imagens de estilos arbitrários com precisão sob o controle de vetores de estilo. Com base nesse design, propomos o paradigma de fusão de modelos baseado em destilação de pontuação (DMM), que comprime múltiplos modelos em um único modelo T2I versátil. Além disso, repensamos e reformulamos a tarefa de fusão de modelos no contexto da geração T2I, apresentando novos objetivos de fusão e protocolos de avaliação. Nossos experimentos demonstram que o DMM pode reorganizar de forma compacta o conhecimento de múltiplos modelos professores e alcançar geração controlável de estilos arbitrários.

11

PerceptionLM: Dados e Modelos de Acesso Aberto para Compreensão Visual Detalhada
PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding

Apr 17
ByJang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Shane Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Krähenbühl, Piotr Dollár, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer
20
4

Modelos visão-linguagem são fundamentais para a pesquisa em visão computacional, mas muitos modelos de alto desempenho permanecem de código fechado, obscurecendo seus dados, design e receita de treinamento. A comunidade de pesquisa respondeu utilizando a destilação de modelos de caixa preta para rotular dados de treinamento, alcançando resultados robustos em benchmarks, mas ao custo de um progresso científico mensurável. No entanto, sem conhecer os detalhes do modelo professor e suas fontes de dados, o progresso científico permanece difícil de medir. Neste artigo, estudamos a construção de um Modelo de Linguagem de Percepção (PLM) em um framework totalmente aberto e reproduzível para pesquisa transparente em compreensão de imagens e vídeos. Analisamos pipelines de treinamento padrão sem destilação de modelos proprietários e exploramos dados sintéticos em grande escala para identificar lacunas críticas de dados, particularmente na compreensão detalhada de vídeos. Para preencher essas lacunas, disponibilizamos 2,8 milhões de instâncias rotuladas por humanos de pares de perguntas e respostas de vídeo de granularidade fina e legendas de vídeo com ancoragem espaço-temporal. Além disso, introduzimos o PLM-VideoBench, um conjunto de ferramentas para avaliar tarefas desafiadoras de compreensão de vídeo, focando na capacidade de raciocinar sobre "o quê", "onde", "quando" e "como" de um vídeo. Tornamos nosso trabalho totalmente reproduzível ao fornecer dados, receitas de treinamento, código e modelos.

12

VistaDPO: Otimização Hierárquica Espacial-Temporal de Preferências Diretas em Vídeo para Modelos de Vídeo de Grande Escala
VistaDPO: Video Hierarchical Spatial-Temporal Direct Preference Optimization for Large Video Models

Apr 17
ByHaojian Huang, Haodong Chen, Shengqiong Wu, Meng Luo, Jinlan Fu, Xinya Du, Hanwang Zhang, Hao Fei
20
4

Grandes Modelos de Vídeo (LVMs) construídos sobre Grandes Modelos de Linguagem (LLMs) têm mostrado potencial na compreensão de vídeos, mas frequentemente sofrem com desalinhamentos em relação à intuição humana e problemas de alucinação em vídeos. Para enfrentar esses desafios, introduzimos o VistaDPO, uma nova estrutura para Otimização Direta de Preferência Hierárquica Espaço-Temporal em Vídeos. O VistaDPO melhora o alinhamento de preferências texto-vídeo em três níveis hierárquicos: i) Nível de Instância, alinhando o conteúdo geral do vídeo com as respostas; ii) Nível Temporal, alinhando a semântica temporal do vídeo com descrições de eventos; e iii) Nível Perceptivo, alinhando objetos espaciais com tokens de linguagem. Dada a escassez de conjuntos de dados para alinhamento fino de preferências vídeo-linguagem, construímos o VistaDPO-7k, um conjunto de dados com 7,2 mil pares de perguntas e respostas anotados com respostas escolhidas e rejeitadas, juntamente com informações de ancoragem espaço-temporal, como timestamps, keyframes e bounding boxes. Experimentos extensivos em benchmarks como Alucinação em Vídeo, QA de Vídeo e tarefas de desempenho em Legendagem demonstram que o VistaDPO melhora significativamente o desempenho dos LVMs existentes, mitigando efetivamente o desalinhamento vídeo-linguagem e a alucinação. O código e os dados estão disponíveis em https://github.com/HaroldChen19/VistaDPO.

13

NoisyRollout: Reforçando o Raciocínio Visual com Aumento de Dados
NoisyRollout: Reinforcing Visual Reasoning with Data Augmentation

Apr 17
ByXiangyan Liu, Jinjie Ni, Zijian Wu, Chao Du, Longxu Dou, Haonan Wang, Tianyu Pang, Michael Qizhe Shieh
19
2

Avanços recentes em aprendizado por reforço (RL) fortaleceram as capacidades de raciocínio de modelos visão-linguagem (VLMs). No entanto, a melhoria da exploração de políticas para escalar de forma mais eficiente o cálculo em tempo de teste permanece pouco explorada em VLMs. Além disso, VLMs continuam a enfrentar dificuldades com percepção visual imperfeita, o que, por sua vez, afeta o processo subsequente de raciocínio. Para isso, propomos o NoisyRollout, uma abordagem de RL simples, porém eficaz, que combina trajetórias de imagens limpas e moderadamente distorcidas para introduzir diversidade direcionada na percepção visual e nos padrões de raciocínio resultantes. Sem custo adicional de treinamento, o NoisyRollout aprimora as capacidades de exploração de VLMs ao incorporar um viés indutivo orientado para a visão. Além disso, o NoisyRollout emprega um cronograma de redução gradual de ruído que diminui progressivamente a intensidade da distorção ao longo do treinamento, garantindo benefícios dos sinais ruidosos no início, enquanto mantém a estabilidade e escalabilidade do treinamento em estágios posteriores. Com apenas 2.1 mil amostras de treinamento, o NoisyRollout alcança desempenho de ponta entre modelos ajustados por RL de código aberto em 5 benchmarks fora do domínio, abrangendo tarefas de raciocínio e percepção, enquanto mantém desempenho comparável ou até melhor no domínio original.

14

InstantCharacter: Personalização de Personagens com um Framework Escalável de Transformadores de Difusão
InstantCharacter: Personalize Any Characters with a Scalable Diffusion Transformer Framework

Apr 16
ByJiale Tao, Yanbing Zhang, Qixun Wang, Yiji Cheng, Haofan Wang, Xu Bai, Zhengguang Zhou, Ruihuang Li, Linqing Wang, Chunyu Wang, Qin Lin, Qinglin Lu
16
2

As abordagens atuais de personalização de sujeitos baseadas em aprendizado, que predominantemente dependem de arquiteturas U-Net, sofrem com capacidade limitada de generalização e qualidade de imagem comprometida. Enquanto isso, métodos baseados em otimização exigem ajustes específicos para cada sujeito, o que inevitavelmente degrada a controlabilidade textual. Para enfrentar esses desafios, propomos o InstantCharacter, uma estrutura escalável para personalização de personagens construída sobre um transformer de difusão fundamental. O InstantCharacter demonstra três vantagens fundamentais: primeiro, ele alcança personalização em domínio aberto através de diversas aparências, poses e estilos de personagens, mantendo resultados de alta fidelidade. Segundo, a estrutura introduz um adaptador escalável com codificadores transformer empilhados, que processa eficientemente características de personagens em domínio aberto e interage perfeitamente com o espaço latente de transformers de difusão modernos. Terceiro, para treinar efetivamente a estrutura, construímos um grande conjunto de dados de personagens contendo amostras na ordem de 10 milhões. O conjunto de dados é organizado sistematicamente em subconjuntos pareados (personagens com múltiplas visões) e não pareados (combinações de texto-imagem). Essa estrutura dual de dados permite a otimização simultânea da consistência de identidade e da editabilidade textual através de caminhos de aprendizado distintos. Experimentos qualitativos demonstram as capacidades avançadas do InstantCharacter na geração de imagens de alta fidelidade, controláveis por texto e consistentes com o personagem, estabelecendo um novo padrão para geração de imagens orientada por personagens. Nosso código-fonte está disponível em https://github.com/Tencent/InstantCharacter.

15

Computação em Tempo de Sono: Além da Escalabilidade de Inferência em Tempo de Teste
Sleep-time Compute: Beyond Inference Scaling at Test-time

Apr 17
ByKevin Lin, Charlie Snell, Yu Wang, Charles Packer, Sarah Wooders, Ion Stoica, Joseph E. Gonzalez
15
3

A escalabilidade do cálculo em tempo de teste emergiu como um ingrediente fundamental para permitir que modelos de linguagem de grande escala (LLMs) resolvam problemas complexos, mas isso vem com alta latência e custo de inferência. Introduzimos o cálculo em tempo de repouso, que permite que os modelos "pensem" offline sobre contextos antes que as consultas sejam apresentadas: ao antecipar quais consultas os usuários podem fazer e pré-calcular quantidades úteis, podemos reduzir significativamente os requisitos de cálculo no tempo de teste. Para demonstrar a eficácia do nosso método, criamos versões modificadas de duas tarefas de raciocínio - Stateful GSM-Symbolic e Stateful AIME. Descobrimos que o cálculo em tempo de repouso pode reduzir a quantidade de cálculo necessária no tempo de teste para alcançar a mesma precisão em ~5x no Stateful GSM-Symbolic e no Stateful AIME, e que, ao escalar o cálculo em tempo de repouso, podemos aumentar ainda mais a precisão em até 13% no Stateful GSM-Symbolic e 18% no Stateful AIME. Além disso, introduzimos o Multi-Query GSM-Symbolic, que estende o GSM-Symbolic ao incluir múltiplas consultas relacionadas por contexto. Ao amortizar o cálculo em tempo de repouso entre consultas relacionadas sobre o mesmo contexto usando o Multi-Query GSM-Symbolic, podemos diminuir o custo médio por consulta em 2,5x. Em seguida, conduzimos uma análise adicional para entender quando o cálculo em tempo de repouso é mais eficaz, descobrindo que a previsibilidade da consulta do usuário está bem correlacionada com a eficácia do cálculo em tempo de repouso. Por fim, realizamos um estudo de caso aplicando o cálculo em tempo de repouso a uma tarefa realista de agente SWE.

16

Explorar as falhas de especialistas melhora o ajuste de agentes de LLM
Exploring Expert Failures Improves LLM Agent Tuning

Apr 17
ByLi-Cheng Lan, Andrew Bai, Minhao Cheng, Ruochen Wang, Cho-Jui Hsieh, Tianyi Zhou
12
4

Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado um potencial imenso como agentes, destacando-se em tarefas que exigem múltiplas rodadas de raciocínio e interações. O Ajuste Fino por Amostragem de Rejeição (RFT) surgiu como um método eficaz para ajustar LLMs como agentes: ele primeiro imita trajetórias bem-sucedidas geradas por especialistas e, em seguida, aprimora as habilidades agentivas por meio de ajuste fino iterativo em trajetórias bem-sucedidas geradas pelo próprio modelo. No entanto, como o especialista (por exemplo, GPT-4) tem sucesso principalmente em subtarefas mais simples e o RFT favorece inerentemente cenários menos complexos, muitas subtarefas desafiadoras permanecem sem solução e persistentemente fora da distribuição (OOD). Ao investigar essas subtarefas complexas, descobrimos que trajetórias anteriores falhas do especialista frequentemente fornecem orientações valiosas, como planos e ações-chave, que podem melhorar significativamente a eficiência da exploração do agente e a aquisição de habilidades críticas. Motivados por essas observações, propomos a Exploração de Falhas de Especialistas (EEF), que identifica ações benéficas em trajetórias falhas de especialistas e as integra ao conjunto de dados de treinamento. Ações potencialmente prejudiciais são cuidadosamente excluídas para evitar a contaminação do processo de aprendizado do modelo. Ao aproveitar as ações benéficas nas falhas de especialistas, o EEF resolve com sucesso algumas subtarefas anteriormente insolúveis e melhora o desempenho do ajuste do agente. Notavelmente, nossa abordagem alcançou uma taxa de vitória de 62% no WebShop, superando o RFT (53,6%) e o GPT-4 (35,6%), e, até onde sabemos, estabelecendo um novo estado da arte como o primeiro método a ultrapassar uma pontuação de 0,81 no WebShop e exceder 81 no SciWorld.

17

CCMNet: Utilizando Matrizes de Correção de Cores Calibradas para Constância de Cores entre Câmeras
CCMNet: Leveraging Calibrated Color Correction Matrices for Cross-Camera Color Constancy

Apr 10
ByDongyoung Kim, Mahmoud Afifi, Dongyun Kim, Michael S. Brown, Seon Joo Kim
10
2

A constância de cor computacional, ou balanceamento de branco, é um módulo fundamental no processador de sinal de imagem (ISP) de uma câmera que corrige distorções de cor causadas pela iluminação da cena. Como essa operação ocorre no espaço de cor bruta específico da câmera, os algoritmos de balanceamento de branco devem se adaptar a diferentes câmeras. Este artigo apresenta um método baseado em aprendizado para constância de cor entre câmeras que generaliza para novas câmeras sem necessidade de retreinamento. Nosso método aproveita matrizes de correção de cor (CCMs) pré-calibradas disponíveis nos ISPs, que mapeiam o espaço de cor bruta da câmera para um espaço padrão (por exemplo, CIE XYZ). Nosso método utiliza essas CCMs para transformar cores de iluminação predefinidas (ou seja, ao longo do locus de Planck) no espaço de cor bruta da câmera de teste. Os iluminantes mapeados são codificados em uma incorporação compacta de impressão digital da câmera (CFE) que permite à rede se adaptar a câmeras não vistas anteriormente. Para evitar sobreajuste devido ao número limitado de câmeras e CCMs durante o treinamento, introduzimos uma técnica de aumento de dados que interpola entre câmeras e suas CCMs. Resultados experimentais em vários conjuntos de dados e arquiteturas mostram que nosso método alcança o estado da arte em constância de cor entre câmeras, mantendo-se leve e dependendo apenas de dados prontamente disponíveis nos ISPs das câmeras.

18

FocusedAD: Descrição de Áudio Centrada em Personagens para Filmes
FocusedAD: Character-centric Movie Audio Description

Apr 16
ByXiaojun Ye, Chun Wang, Yiren Song, Sheng Zhou, Liangcheng Li, Jiajun Bu
8
3

A Descrição de Áudio (AD) para filmes tem como objetivo narrar o conteúdo visual durante segmentos sem diálogo, beneficiando especialmente o público cego ou com deficiência visual (BVI). Em comparação com a legendagem geral de vídeos, a AD exige uma narração relevante para o enredo com referências explícitas aos nomes dos personagens, apresentando desafios únicos na compreensão de filmes. Para identificar os personagens principais ativos e focar em regiões relevantes para a história, propomos o FocusedAD, um novo framework que fornece descrições de áudio centradas nos personagens. Ele inclui: (i) um Módulo de Percepção de Personagens (CPM) para rastrear as regiões dos personagens e vinculá-las aos nomes; (ii) um Módulo de Prioridade Dinâmica (DPM) que injeta pistas contextuais de ADs e legendas anteriores por meio de prompts suaves aprendíveis; e (iii) um Módulo de Legendagem Focada (FCM) que gera narrações enriquecidas com detalhes relevantes para o enredo e personagens nomeados. Para superar as limitações na identificação de personagens, também introduzimos um pipeline automatizado para a construção de bancos de consulta de personagens. O FocusedAD alcança desempenho de ponta em vários benchmarks, incluindo resultados fortes de zero-shot no MAD-eval-Named e em nosso novo conjunto de dados proposto, o Cinepile-AD. O código e os dados serão disponibilizados em https://github.com/Thorin215/FocusedAD.

19

Complex-Edit: Geração de Instruções Semelhantes a CoT para Benchmark de Edição de Imagens com Controle de Complexidade
Complex-Edit: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

Apr 17
BySiwei Yang, Mude Hui, Bingchen Zhao, Yuyin Zhou, Nataniel Ruiz, Cihang Xie
7
2

Apresentamos o Complex-Edit, um benchmark abrangente projetado para avaliar sistematicamente modelos de edição de imagens baseados em instruções, considerando instruções de complexidade variável. Para desenvolver esse benchmark, utilizamos o GPT-4 para coletar automaticamente, em larga escala, um conjunto diversificado de instruções de edição. Nossa abordagem segue um pipeline bem estruturado de "Cadeia de Edição": primeiro geramos tarefas de edição atômicas de forma independente e, em seguida, as integramos para formar instruções complexas e coesas. Além disso, introduzimos um conjunto de métricas para avaliar diversos aspectos do desempenho na edição, juntamente com um pipeline de autoavaliação baseado em VLM (Modelo de Linguagem Visual) que suporta avaliações em larga escala. Nosso benchmark revela várias observações importantes: 1) Modelos de código aberto têm desempenho significativamente inferior em comparação com modelos proprietários de código fechado, com a diferença de desempenho aumentando à medida que a complexidade das instruções cresce; 2) O aumento da complexidade das instruções prejudica principalmente a capacidade dos modelos de reter elementos-chave das imagens de entrada e de preservar a qualidade estética geral; 3) Decompor uma instrução complexa em uma sequência de etapas atômicas, executadas passo a passo, degrada substancialmente o desempenho em múltiplas métricas; 4) Uma estratégia simples de seleção "Best-of-N" melhora os resultados tanto para a edição direta quanto para a abordagem sequencial passo a passo; e 5) Observamos uma "maldição dos dados sintéticos": quando dados sintéticos são utilizados no treinamento dos modelos, as imagens editadas por esses modelos tendem a parecer cada vez mais sintéticas à medida que a complexidade das instruções de edição aumenta — um fenômeno que, curiosamente, também se manifesta nas saídas mais recentes do GPT-4.

20

Geração Aumentada por Recuperação com Evidências Conflitantes
Retrieval-Augmented Generation with Conflicting Evidence

Apr 17
ByHan Wang, Archiki Prasad, Elias Stengel-Eskin, Mohit Bansal
6
2

Agentes de modelos de linguagem de grande escala (LLM) estão empregando cada vez mais a geração aumentada por recuperação (RAG) para melhorar a factualidade de suas respostas. No entanto, na prática, esses sistemas frequentemente precisam lidar com consultas ambíguas dos usuários e informações potencialmente conflitantes de múltiplas fontes, ao mesmo tempo que suprimem informações imprecisas provenientes de documentos ruidosos ou irrelevantes. Trabalhos anteriores geralmente estudaram e abordaram esses desafios de forma isolada, considerando apenas um aspecto por vez, como o tratamento de ambiguidades ou a robustez a ruídos e desinformação. Em vez disso, consideramos múltiplos fatores simultaneamente, propondo (i) RAMDocs (Recuperação com Ambiguidade e Desinformação em Documentos), um novo conjunto de dados que simula cenários complexos e realistas de evidências conflitantes para uma consulta do usuário, incluindo ambiguidade, desinformação e ruído; e (ii) MADAM-RAG, uma abordagem multiagente na qual agentes LLM debatem sobre os méritos de uma resposta ao longo de múltiplas rodadas, permitindo que um agregador compile respostas correspondentes a entidades desambiguadas enquanto descarta desinformação e ruído, lidando assim com diversas fontes de conflito de forma conjunta. Demonstramos a eficácia do MADAM-RAG usando tanto modelos fechados quanto de código aberto no AmbigDocs — que exige a apresentação de todas as respostas válidas para consultas ambíguas — superando baselines RAG fortes em até 11,40%, e no FaithEval — que exige a supressão de desinformação — onde melhoramos em até 15,80% (absoluto) com o Llama3.3-70B-Instruct. Além disso, constatamos que o RAMDocs representa um desafio para as baselines RAG existentes (o Llama3.3-70B-Instruct obtém apenas 32,60 de pontuação exata). Embora o MADAM-RAG comece a abordar esses fatores conflitantes, nossa análise indica que ainda há uma lacuna substancial, especialmente ao aumentar o nível de desequilíbrio nas evidências de suporte e na desinformação.

21

MetaSynth: Estruturas Agênicas Orientadas por Meta-Prompting para Geração Diversificada de Dados Sintéticos
MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation

Apr 17
ByHaris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood
4
2

Modelos de linguagem menores recentes, como Phi-3.5 e Phi-4, dependem de dados sintéticos gerados por modelos de linguagem maiores. Questões permanecem sobre o uso de dados sintéticos para outros casos de uso, como a adaptação de LLMs (Large Language Models) para domínios específicos. Uma limitação chave dos dados sintéticos é a baixa diversidade, o que impacta negativamente sua aplicabilidade subsequente para melhorar outros modelos. Para resolver isso, propomos o MetaSynth, um método para gerar dados sintéticos que aumenta a diversidade por meio de meta-prompting, onde um modelo de linguagem orquestra múltiplos agentes LLM "especialistas" para gerar dados de forma colaborativa. Usando apenas 25 milhões de tokens de dados sintéticos gerados com o MetaSynth, adaptamos com sucesso um LLM bem treinado (Mistral-7B-v0.3) para dois domínios especializados — Finanças e Biomedicina — sem comprometer as capacidades do modelo resultante em tarefas gerais. Além disso, avaliamos a diversidade dos nossos dados sintéticos usando sete métricas automatizadas e descobrimos que ela se aproxima da diversidade dos corpora de pré-treinamento de LLMs. O pré-treinamento contínuo do Mistral-7B-v0.3 com o MetaSynth supera notavelmente o LLM base, mostrando melhorias de até 4,08% em Finanças e 13,75% em Biomedicina. O mesmo modelo apresenta desempenho degradado quando treinado com dados gerados usando um prompt de template, mesmo quando o template inclui gerações anteriores e exemplos variados de dados reais em contexto. Nossas descobertas sugerem que alguns milhões de tokens de dados sintéticos diversos, sem misturar nenhum dado real, são suficientes para uma adaptação eficaz de domínio ao usar o MetaSynth.

22

Coloque Você no Caminho Certo: Trajetórias de Desruído Auto-Dirigidas para Evitar Conceitos Indesejados
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts

Apr 17
ByLeyang Li, Shilin Lu, Yan Ren, Adams Wai-Kin Kong
3
2

Garantir a implantação ética de modelos de texto para imagem requer técnicas eficazes para prevenir a geração de conteúdo prejudicial ou inadequado. Embora os métodos de apagamento de conceitos ofereçam uma solução promissora, as abordagens existentes baseadas em ajuste fino apresentam limitações significativas. Métodos sem âncora correm o risco de perturbar trajetórias de amostragem, resultando em artefatos visuais, enquanto métodos baseados em âncora dependem da seleção heurística de conceitos âncora. Para superar essas deficiências, introduzimos uma estrutura de ajuste fino, denominada ANT, que guia Automaticamente as Trajetórias de Desruído para evitar conceitos indesejados. O ANT é construído com base em uma percepção fundamental: inverter a direção da condição da orientação sem classificador durante os estágios intermediários e finais do processo de desruído permite uma modificação precisa do conteúdo sem sacrificar a integridade estrutural nos estágios iniciais. Isso inspira um objetivo consciente da trajetória que preserva a integridade do campo da função de pontuação nos estágios iniciais, que direciona as amostras para a variedade de imagens naturais, sem depender da seleção heurística de conceitos âncora. Para o apagamento de um único conceito, propomos um mapa de saliência de pesos aprimorado por aumento para identificar com precisão os parâmetros críticos que contribuem mais significativamente para o conceito indesejado, permitindo um apagamento mais completo e eficiente. Para o apagamento de múltiplos conceitos, nossa função objetivo oferece uma solução versátil de plug-and-play que melhora significativamente o desempenho. Experimentos extensivos demonstram que o ANT alcança resultados de ponta tanto no apagamento de um único conceito quanto no de múltiplos conceitos, fornecendo saídas seguras e de alta qualidade sem comprometer a fidelidade gerativa. O código está disponível em https://github.com/lileyang1210/ANT.

23

Aprendendo Transformadores Visuais Robustos à Oclusão para Rastreamento de UAVs em Tempo Real
Learning Occlusion-Robust Vision Transformers for Real-Time UAV Tracking

Apr 12
ByYou Wu, Xucheng Wang, Xiangyang Yang, Mengyuan Liu, Dan Zeng, Hengzhou Ye, Shuiwang Li
3
2

Arquiteturas de fluxo único que utilizam backbones de Vision Transformer (ViT) têm demonstrado grande potencial para rastreamento de UAVs em tempo real recentemente. No entanto, oclusões frequentes causadas por obstáculos como edifícios e árvores revelam uma grande limitação: esses modelos frequentemente carecem de estratégias para lidar efetivamente com oclusões. Novos métodos são necessários para aprimorar a resiliência a oclusões dos modelos de fluxo único baseados em ViT para rastreamento aéreo. Neste trabalho, propomos aprender Representações Robustas a Oclusões (ORR) baseadas em ViTs para rastreamento de UAVs, aplicando uma invariância da representação de características de um alvo em relação a operações de mascaramento aleatório modeladas por um processo espacial de Cox. Espera-se que esse mascaramento aleatório simule aproximadamente oclusões do alvo, permitindo-nos aprender ViTs que são robustas a oclusões para rastreamento de UAVs. Esse framework é denominado ORTrack. Além disso, para facilitar aplicações em tempo real, propomos um método de Distilação de Conhecimento Baseada em Características Adaptativas (AFKD) para criar um rastreador mais compacto, que imita adaptativamente o comportamento do modelo professor ORTrack de acordo com a dificuldade da tarefa. Esse modelo estudante, chamado ORTrack-D, mantém grande parte do desempenho do ORTrack enquanto oferece maior eficiência. Experimentos extensivos em múltiplos benchmarks validam a eficácia do nosso método, demonstrando seu desempenho de ponta. Os códigos estão disponíveis em https://github.com/wuyou3474/ORTrack.

Apr 17
Apr 18
Apr 21