HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

20 papers found

Relatório Técnico Baichuan-Omni
Baichuan-Omni Technical Report

Oct 11

ByYadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

As salientes capacidades multimodais e a experiência interativa do GPT-4o destacam o seu papel crítico em aplicações práticas, no entanto, ele carece de um equivalente de código aberto de alto desempenho. Neste artigo, apresentamos o Baichuan-Omni, o primeiro Modelo de Linguagem Multimodal Grande (MLLM) de 7B de código aberto capaz de processar e analisar modalidades de imagem, vídeo, áudio e texto simultaneamente, proporcionando uma experiência interativa multimodal avançada e alto desempenho. Propomos um esquema de treinamento multimodal eficaz começando com o modelo de 7B e passando por duas etapas de alinhamento multimodal e ajuste fino multitarefa em áudio, imagem, vídeo e texto. Esta abordagem capacita o modelo de linguagem a lidar eficazmente com dados visuais e de áudio. Demonstrando alto desempenho em diversos benchmarks omni-modais e multimodais, almejamos que esta contribuição sirva como uma linha de base competitiva para a comunidade de código aberto no avanço da compreensão multimodal e interação em tempo real.

Meissonic: Revitalizando Transformadores Generativos Mascaramentados para uma Síntese Eficiente de Texto para Imagem em Alta Resolução
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

Modelos de difusão, como a Difusão Estável, avançaram significativamente na geração visual, no entanto, seu paradigma permanece fundamentalmente diferente dos modelos de linguagem autoregressivos, o que complica o desenvolvimento de modelos unificados de linguagem-visão. Esforços recentes, como o LlamaGen, tentaram a geração de imagens autoregressivas usando tokens discretos VQVAE, mas o grande número de tokens envolvidos torna esse método ineficiente e lento. Neste trabalho, apresentamos o Meissonic, que eleva a modelagem de imagens mascaradas não autoregressivas (MIM) texto-para-imagem a um nível comparável aos modelos de difusão de última geração, como o SDXL. Ao incorporar uma ampla gama de inovações arquiteturais, estratégias avançadas de codificação posicional e condições de amostragem otimizadas, o Meissonic melhora substancialmente o desempenho e a eficiência do MIM. Além disso, aproveitamos dados de treinamento de alta qualidade, integramos microcondições informadas por pontuações de preferência humana e utilizamos camadas de compressão de características para aprimorar ainda mais a fidelidade e a resolução da imagem. Nosso modelo não apenas iguala, mas muitas vezes supera o desempenho de modelos existentes como o SDXL na geração de imagens de alta qualidade e alta resolução. Experimentos extensivos validam as capacidades do Meissonic, demonstrando seu potencial como um novo padrão na síntese de texto-para-imagem. Disponibilizamos um ponto de verificação do modelo capaz de produzir imagens de resolução 1024 vezes 1024.

StructRAG: Impulsionando o Raciocínio Intensivo em Conhecimento de LLMs por meio da Estruturação Híbrida de Informações no Momento da Inferência
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

A geração aumentada por recuperação (RAG) é um meio fundamental para aprimorar efetivamente os grandes modelos de linguagem (LLMs) em muitas tarefas baseadas em conhecimento. No entanto, os métodos de RAG existentes enfrentam dificuldades em tarefas de raciocínio intensivo em conhecimento, pois as informações úteis necessárias para essas tarefas estão dispersas de forma desordenada. Essa característica torna difícil para os métodos de RAG existentes identificar com precisão informações-chave e realizar raciocínio global com tal aumento ruidoso. Neste artigo, motivados pelas teorias cognitivas de que os humanos convertem informações brutas em vários conhecimentos estruturados ao lidar com raciocínio intensivo em conhecimento, propomos um novo framework, StructRAG, que pode identificar o tipo de estrutura ideal para a tarefa em questão, reconstruir documentos originais nesse formato estruturado e inferir respostas com base na estrutura resultante. Experimentos extensivos em várias tarefas intensivas em conhecimento mostram que o StructRAG alcança desempenho de ponta, destacando-se especialmente em cenários desafiadores, demonstrando seu potencial como uma solução eficaz para aprimorar LLMs em aplicações do mundo real complexas.

De Generalista a Especialista: Adaptando Modelos de Linguagem Visual por meio de Ajuste de Instrução Visual Específica da Tarefa
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

Os modelos de linguagem com visão ampla (VLMs) combinam grandes modelos de linguagem com codificadores de visão, demonstrando promessa em várias tarefas. No entanto, muitas vezes apresentam desempenho inferior em aplicações específicas devido a lacunas de domínio entre o pré-treinamento e o ajuste fino. Apresentamos o VITask, um novo framework que aprimora a adaptabilidade específica da tarefa dos VLMs integrando modelos específicos da tarefa (TSMs). O VITask emprega três estratégias-chave: estímulo de exemplar (EP), alinhamento de distribuição de respostas (RDA) e ajuste de respostas contrastivas (CRT) para melhorar o desempenho específico da tarefa dos VLMs ajustando suas distribuições de respostas. O EP permite que as características do TSM guiem os VLMs, enquanto o RDA permite que os VLMs se adaptem sem os TSMs durante a inferência, aprendendo com modelos estimulados por exemplares. O CRT otimiza ainda mais a classificação de pares corretos de imagem-resposta, reduzindo assim o risco de gerar respostas indesejadas. Experimentos em 12 conjuntos de dados de diagnóstico médico em 9 modalidades de imagem mostram que o VITask supera tanto os VLMs ajustados por instrução simples quanto os TSMs, demonstrando sua capacidade de integrar efetivamente características complementares de ambos os modelos. Além disso, o VITask oferece vantagens práticas, como integração flexível de TSM e robustez a instruções incompletas, tornando-o uma solução versátil e eficiente para ajuste de VLM específico da tarefa. Nosso código está disponível em https://github.com/baiyang4/VITask.

Seleção Colaborativa de Dados entre Múltiplos Agentes para Pré-treinamento Eficiente de LLM
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

A seleção eficiente de dados é crucial para acelerar o pré-treinamento de grandes modelos de linguagem (LLMs). Embora vários métodos tenham sido propostos para aprimorar a eficiência dos dados, poucas pesquisas abordaram os conflitos inerentes entre essas abordagens para alcançar uma seleção de dados ideal para o pré-treinamento de LLMs. Para enfrentar esse problema, propomos um novo mecanismo de seleção de dados colaborativo multiagente. Neste framework, cada método de seleção de dados atua como um agente independente, e um console de agente é projetado para integrar dinamicamente as informações de todos os agentes ao longo do processo de treinamento do LLM. Realizamos extensivos estudos empíricos para avaliar nosso framework multiagente. Os resultados experimentais demonstram que nossa abordagem melhora significativamente a eficiência dos dados, acelera a convergência no treinamento do LLM e alcança um ganho médio de desempenho de 10,5% em múltiplos benchmarks de modelos de linguagem em comparação com os métodos de ponta.

Permutabilidade Mecânica: Corresponder Características Entre Camadas
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

Compreender como as características evoluem através das camadas em redes neurais profundas é um desafio fundamental em interpretabilidade mecanicista, especialmente devido à polissemia e sobreposição de características. Enquanto Autoencoders Esparsos (SAEs) têm sido usados para extrair características interpretáveis de camadas individuais, alinhar essas características entre camadas tem permanecido um problema em aberto. Neste artigo, apresentamos o SAE Match, um método inovador e sem necessidade de dados para alinhar características de SAE em diferentes camadas de uma rede neural. Nossa abordagem envolve combinar características minimizando o erro quadrático médio entre os parâmetros dobrados dos SAEs, uma técnica que incorpora limiares de ativação nos pesos do codificador e decodificador para considerar diferenças nas escalas das características. Através de experimentos extensivos no modelo de linguagem Gemma 2, demonstramos que nosso método captura efetivamente a evolução das características entre camadas, melhorando a qualidade do alinhamento das características. Também mostramos que as características persistem por várias camadas e que nossa abordagem pode aproximar estados ocultos entre camadas. Nosso trabalho avança a compreensão da dinâmica das características em redes neurais e fornece uma nova ferramenta para estudos de interpretabilidade mecanicista.

EvolveDirector: Abordando a Geração Avançada de Texto para Imagem com Modelos de Visão-Linguagem de Grande Escala
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

Os avanços recentes em modelos de geração têm demonstrado capacidades notáveis na criação de conteúdo fantástico. No entanto, a maioria deles é treinada em dados proprietários de alta qualidade, e alguns modelos retêm seus parâmetros, disponibilizando apenas interfaces de programação de aplicativos (APIs) acessíveis, limitando seus benefícios para tarefas subsequentes. Para explorar a viabilidade de treinar um modelo de geração de texto para imagem comparável aos modelos avançados usando recursos publicamente disponíveis, apresentamos o EvolveDirector. Este framework interage com modelos avançados por meio de suas APIs públicas para obter pares de dados texto-imagem para treinar um modelo base. Nossos experimentos com dados extensivos indicam que o modelo treinado em dados gerados pelo modelo avançado pode se aproximar de sua capacidade de geração. No entanto, isso requer amostras em larga escala de 10 milhões ou mais. Isso acarreta despesas significativas em tempo, recursos computacionais e especialmente os custos associados à chamada de APIs pagas. Para lidar com esse problema, aproveitamos modelos pré-treinados de visão-linguagem (VLMs) de grande escala para orientar a evolução do modelo base. O VLM avalia continuamente o modelo base durante o treinamento e atualiza e refina dinamicamente o conjunto de dados de treinamento por meio de operações de discriminação, expansão, exclusão e mutação. Resultados experimentais mostram que esse paradigma reduz significativamente o volume de dados necessário. Além disso, ao se aproximar de vários modelos avançados, o EvolveDirector pode selecionar as melhores amostras geradas por eles para aprender habilidades poderosas e equilibradas. O modelo treinado final, Edgen, é demonstrado superar esses modelos avançados. O código e os pesos do modelo estão disponíveis em https://github.com/showlab/EvolveDirector.

SuperCorrigir: Supervisionar e Corrigir Modelos de Linguagem com Insights Orientados por Erros
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

Grandes modelos de linguagem (LLMs) como GPT-4, PaLM e LLaMA têm demonstrado melhorias significativas em várias tarefas de raciocínio. No entanto, modelos menores como Llama-3-8B e DeepSeekMath-Base ainda enfrentam dificuldades com o raciocínio matemático complexo, pois falham em identificar e corrigir efetivamente erros de raciocínio. Métodos recentes baseados em reflexão buscam abordar essas questões, permitindo a autorreflexão e autocorreção, mas ainda enfrentam desafios na detecção independente de erros em seus passos de raciocínio. Para superar essas limitações, propomos o SuperCorrect, um novo framework em duas etapas que utiliza um grande modelo professor para supervisionar e corrigir tanto os processos de raciocínio quanto de reflexão de um modelo aluno menor. Na primeira etapa, extraímos modelos de pensamento hierárquicos de alto nível e detalhados do modelo professor para orientar o modelo aluno na elicitação de pensamentos de raciocínio mais refinados. Na segunda etapa, introduzimos a otimização de preferência direta colaborativa entre modelos (DPO) para aprimorar as habilidades de autocorreção do modelo aluno, seguindo os rastros de correção do professor durante o treinamento. Essa abordagem de DPO entre modelos ensina o modelo aluno a localizar e resolver efetivamente pensamentos errôneos com insights orientados por erros do modelo professor, rompendo o gargalo de seus pensamentos e adquirindo novas habilidades e conhecimentos para lidar com problemas desafiadores. Experimentos extensivos demonstram consistentemente nossa superioridade em relação a métodos anteriores. Notavelmente, nosso modelo SuperCorrect-7B supera significativamente o poderoso DeepSeekMath-7B em 7,8%/5,3% e o Qwen2.5-Math-7B em 15,1%/6,3% nos benchmarks MATH/GSM8K, alcançando um novo desempenho de SOTA entre todos os modelos 7B. Código: https://github.com/YangLing0818/SuperCorrect-llm

PositionID: LLMs podem Controlar Comprimentos, Copiar e Colar com Consciência Posicional Explícita
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

Os Modelos de Linguagem de Grande Escala (LLMs) demonstram impressionantes capacidades em diversos domínios, incluindo interpretação de papéis, escrita criativa, raciocínio matemático e codificação. Apesar desses avanços, os LLMs ainda enfrentam desafios com o controle de comprimento, frequentemente falhando em aderir a restrições específicas de comprimento devido às suas operações a nível de token e treinamento insuficiente em dados com limitações rígidas de comprimento. Identificamos esse problema como decorrente de uma falta de consciência posicional e propomos abordagens inovadoras - Estímulo de Identificação de Posição (PositionID Prompting) e Ajuste Fino de Identificação de Posição (PositionID Fine-Tuning) - para abordá-lo. Esses métodos aprimoram a capacidade do modelo de monitorar e gerenciar continuamente o comprimento do texto durante a geração. Além disso, introduzimos o Estímulo de CP de Identificação de Posição (PositionID CP Prompting) para permitir que os LLMs realizem operações de copiar e colar com precisão. Além disso, desenvolvemos dois benchmarks para avaliar o controle de comprimento e as habilidades de copiar e colar. Nossos experimentos demonstram que nossos métodos melhoram significativamente a adesão do modelo às restrições de comprimento e a precisão de copiar e colar sem comprometer a qualidade da resposta.

Amostragem de Destilação de Pontuação Semântica para Geração Texto-para-3D Composicional
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

A geração de ativos 3D de alta qualidade a partir de descrições textuais continua a ser um desafio fundamental na pesquisa de gráficos computacionais e visão. Devido à escassez de dados 3D, abordagens de ponta utilizam priores de difusão 2D pré-treinados, otimizados por meio de Amostragem de Difusão de Pontuação (SDS). Apesar do progresso, criar cenas 3D complexas com vários objetos ou interações intricadas ainda é difícil. Para lidar com isso, métodos recentes têm incorporado orientações de caixa ou layout. No entanto, esses métodos composicionais orientados por layout frequentemente têm dificuldade em fornecer controle detalhado, pois geralmente são grosseiros e carentes de expressividade. Para superar esses desafios, apresentamos uma nova abordagem SDS, Amostragem de Difusão de Pontuação Semântica (SemanticSDS), projetada para melhorar efetivamente a expressividade e precisão da geração de texto para 3D. Nossa abordagem integra novas incorporações semânticas que mantêm consistência em diferentes visualizações de renderização e diferenciam claramente entre vários objetos e partes. Essas incorporações são transformadas em um mapa semântico, que direciona um processo de SDS específico da região, permitindo otimização precisa e geração composicional. Ao alavancar orientações semânticas explícitas, nosso método desbloqueia as capacidades composicionais de modelos de difusão pré-treinados existentes, alcançando assim uma qualidade superior na geração de conteúdo 3D, especialmente para objetos e cenas complexas. Resultados experimentais demonstram que nosso framework SemanticSDS é altamente eficaz para gerar conteúdo 3D complexo de última geração. Código: https://github.com/YangLing0818/SemanticSDS-3D

Previsão de KV para Melhoria do Tempo até o Primeiro Token
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

A inferência com modelos de linguagem baseados em transformadores começa com uma etapa de processamento do prompt. Nesta etapa, o modelo gera o primeiro token de saída e armazena o cache KV necessário para futuras etapas de geração. Esta etapa de processamento do prompt pode ser computacionalmente cara, levando dezenas de segundos ou mais para modelos de bilhões de parâmetros em dispositivos de borda quando os comprimentos dos prompts ou os tamanhos dos lotes aumentam. Isso degrada a experiência do usuário ao introduzir uma latência significativa nas saídas do modelo. Para reduzir o tempo gasto na produção do primeiro resultado (conhecido como "tempo para o primeiro token", ou TTFT) de um modelo pré-treinado, introduzimos um método inovador chamado Predição KV. Em nosso método, um pequeno modelo auxiliar é usado para processar o prompt e produzir uma aproximação do cache KV usado por um modelo base. Este cache KV aproximado é então usado com o modelo base para geração autoregressiva sem a necessidade de consultar novamente o modelo auxiliar. Demonstramos que nosso método produz uma troca eficiência-precisão pareto-ótima quando comparado com baselines. No TriviaQA, demonstramos melhorias relativas de precisão na faixa de 15%-50% em uma variedade de orçamentos de FLOPs de TTFT. Também demonstramos melhorias de precisão de até 30% na conclusão de código Python HumanEval em orçamentos de FLOPs de TTFT fixos. Além disso, avaliamos modelos em uma CPU Apple M2 Pro e demonstramos que nossa melhoria em FLOPs se traduz em uma aceleração de TTFT no hardware. Disponibilizamos nosso código em https://github.com/apple/corenet/tree/main/projects/kv-prediction.

Pense Enquanto Gera: Difusão Discreta com Desnublamento Planejado
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

A difusão discreta alcançou desempenho de ponta, superando ou se aproximando de modelos autorregressivos em benchmarks padrão. Neste trabalho, apresentamos a Difusão Discreta com Desnublamento Planejado (DDPD), um novo framework que separa o processo de geração em dois modelos: um planejador e um desnublador. No momento da inferência, o planejador seleciona quais posições desnublar a seguir, identificando as posições mais corrompidas que necessitam de desnublamento, incluindo aquelas inicialmente corrompidas e aquelas que requerem refinamento adicional. Essa abordagem de planejamento e desnublamento permite uma reconstrução mais eficiente durante a geração, identificando e desnublando iterativamente as corrupções na ordem ótima. A DDPD supera os métodos tradicionais de difusão de máscara apenas com desnublador, alcançando resultados superiores em benchmarks de modelagem de linguagem, como text8, OpenWebText e geração baseada em token no ImageNet 256 vezes 256. Notavelmente, na modelagem de linguagem, a DDPD reduz significativamente a diferença de desempenho entre métodos baseados em difusão e autorregressivos em termos de perplexidade generativa. O código está disponível em https://github.com/liusulin/DDPD.

ZeroComp: Composição de Objetos sem Necessidade de Anotações a partir de Intrínsecos da Imagem via Difusão
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Apresentamos o ZeroComp, uma abordagem eficaz de composição de objetos 3D sem a necessidade de imagens de cena compostas em pares durante o treinamento. Nosso método aproveita o ControlNet para condicionar a partir de imagens intrínsecas e combina-o com um modelo de Difusão Estável para utilizar seus conhecimentos prévios de cena, operando juntos como um mecanismo de renderização eficaz. Durante o treinamento, o ZeroComp utiliza imagens intrínsecas baseadas em geometria, albedo e sombreamento mascarado, tudo isso sem a necessidade de imagens em pares de cenas com e sem objetos compostos. Uma vez treinado, ele integra perfeitamente objetos virtuais 3D em cenas, ajustando o sombreamento para criar composições realistas. Desenvolvemos um conjunto de dados de avaliação de alta qualidade e demonstramos que o ZeroComp supera os métodos que utilizam estimativas de iluminação explícitas e técnicas generativas em benchmarks quantitativos e de percepção humana. Além disso, o ZeroComp se estende à composição de imagens reais e ao ar livre, mesmo quando treinado exclusivamente em dados sintéticos internos, demonstrando sua eficácia na composição de imagens.

I-Max: Maximizar o Potencial de Resolução dos Transformadores de Fluxo Retificado Pré-treinados com Fluxo Projetado
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Os Transformadores de Fluxo Retificado (RFTs) oferecem uma eficiência superior em treinamento e inferência, tornando-os provavelmente a direção mais viável para ampliar modelos de difusão. No entanto, o progresso na resolução de geração tem sido relativamente lento devido à qualidade dos dados e aos custos de treinamento. A extrapolação de resolução sem ajuste apresenta uma alternativa, mas os métodos atuais frequentemente reduzem a estabilidade generativa, limitando a aplicação prática. Neste artigo, revisamos os métodos existentes de extrapolação de resolução e introduzimos o framework I-Max para maximizar o potencial de resolução dos RFTs de Texto-para-Imagem. O I-Max apresenta: (i) uma estratégia de Fluxo Projetado inovadora para extrapolação estável e (ii) um conjunto avançado de ferramentas de inferência para generalizar o conhecimento do modelo para resoluções mais altas. Experimentos com Lumina-Next-2K e Flux.1-dev demonstram a capacidade do I-Max de aprimorar a estabilidade na extrapolação de resolução e mostram que ele pode trazer a emergência de detalhes de imagem e a correção de artefatos, confirmando o valor prático da extrapolação de resolução sem ajuste.

DA-Code: Benchmark de Geração de Código de Ciência de Dados de Agentes para Modelos de Linguagem Grandes
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

Apresentamos o DA-Code, um benchmark de geração de código especificamente projetado para avaliar LLMs em tarefas de ciência de dados baseadas em agentes. Este benchmark apresenta três elementos principais: Primeiro, as tarefas dentro do DA-Code são inerentemente desafiadoras, diferenciando-se das tradicionais tarefas de geração de código e exigindo habilidades avançadas de codificação em fundamentação e planejamento. Em segundo lugar, os exemplos no DA-Code são todos baseados em dados reais e diversos, abrangendo uma ampla gama de tarefas complexas de manipulação e análise de dados. Terceiro, para resolver as tarefas, os modelos devem utilizar linguagens de programação complexas de ciência de dados, para realizar processamento de dados intricado e derivar as respostas. Configuramos o benchmark em um ambiente controlável e executável que se alinha com cenários reais de análise de dados e é escalável. Os anotadores projetam meticulosamente a suíte de avaliação para garantir a precisão e robustez da avaliação. Desenvolvemos a linha de base do DA-Agent. Experimentos mostram que, embora a linha de base tenha um desempenho melhor do que outros frameworks existentes, o uso dos atuais melhores LLMs alcança apenas 30,5% de precisão, deixando amplo espaço para melhorias. Disponibilizamos nosso benchmark em https://da-code-bench.github.io.

MiRAGeNews: Detecção de Notícias Geradas por IA Multimodal Realistas
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

A proliferação de conteúdo inflamatório ou enganoso de "fake news" tornou-se cada vez mais comum nos últimos anos. Simultaneamente, tornou-se mais fácil do que nunca usar ferramentas de IA para gerar imagens fotorrealistas representando qualquer cena imaginável. Combinar esses dois elementos - conteúdo de "fake news" gerado por IA - é particularmente potente e perigoso. Para combater a disseminação de notícias falsas geradas por IA, propomos o Conjunto de Dados MiRAGeNews, um conjunto de dados com 12.500 pares de imagens e legendas de alta qualidade reais e gerados por IA a partir de geradores de última geração. Descobrimos que nosso conjunto de dados representa um desafio significativo para humanos (60% F-1) e para modelos de linguagem com múltiplos modais de última geração (< 24% F-1). Usando nosso conjunto de dados, treinamos um detector multimodal (MiRAGe) que melhora em +5,1% o F-1 em relação aos baselines de última geração em pares de imagens e legendas de geradores de imagens e publicadores de notícias fora do domínio. Disponibilizamos nosso código e dados para auxiliar trabalhos futuros na detecção de conteúdo gerado por IA.

SimpleStrat: Diversificando a Geração de Modelos de Linguagem com Estratificação
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

Gerar respostas diversas a partir de grandes modelos de linguagem (LLMs) é crucial para aplicações como planejamento/busca e geração de dados sintéticos, onde a diversidade proporciona respostas distintas entre gerações. Abordagens anteriores dependem do aumento da temperatura para aumentar a diversidade. No entanto, ao contrário do que se acredita, mostramos que não apenas essa abordagem produz gerações individuais de menor qualidade à medida que a temperatura aumenta, mas também depende das probabilidades do próximo token do modelo serem semelhantes à distribuição real das respostas. Propomos uma abordagem alternativa que utiliza o próprio modelo de linguagem para particionar o espaço em estratos. Durante a inferência, um estrato aleatório é selecionado e uma amostra é retirada de dentro do estrato. Para medir a diversidade, introduzimos o CoverageQA, um conjunto de dados de perguntas subespecificadas com múltiplas respostas igualmente plausíveis, e avaliamos a diversidade medindo a Divergência KL entre a distribuição de saída e a distribuição uniforme sobre as respostas válidas reais. Como calcular a probabilidade por resposta/solução para modelos proprietários é inviável, medimos a recall nas soluções reais. Nossa avaliação mostra que o uso do SimpleStrat alcança uma recall maior em 0.05 em comparação com o GPT-4o e uma redução média de 0.36 na Divergência KL em comparação com o Llama 3.

Mentor-KD: Tornando Modelos de Linguagem Pequenos em Melhores Raciocinadores Multietapa
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

Os Modelos de Linguagem de Grande Escala (LLMs) têm exibido desempenhos notáveis em várias tarefas complexas ao aproveitar a técnica de Encadeamento de Pensamento (CoT). Recentemente, estudos têm proposto uma abordagem de Destilação de Conhecimento (KD), chamada de destilação de raciocínio, que transfere essa capacidade de raciocínio dos LLMs por meio do ajuste fino de modelos de linguagem com justificativas de vários passos geradas pelos LLMs professores. No entanto, eles têm considerado de forma inadequada dois desafios relacionados à insuficiência de conjuntos de destilação do modelo professor LLM, em termos de 1) qualidade dos dados e 2) fornecimento de rótulos suaves. Neste artigo, propomos o Mentor-KD, que destila de forma eficaz a capacidade de raciocínio de vários passos dos LLMs para LMs menores, ao lidar com os desafios mencionados anteriormente. Especificamente, exploramos um mentor, um modelo intermediário de tamanho específico da tarefa ajustado finamente, para adicionar anotações CoT adicionais e fornecer rótulos suaves para o modelo aluno durante a destilação de raciocínio. Realizamos experimentos extensivos e confirmamos a eficácia do Mentor-KD em vários modelos e tarefas complexas de raciocínio.

GenARM: Geração Guiada por Recompensa com Modelo de Recompensa Autoregressivo para Alinhamento em Tempo de Teste
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Os Modelos de Linguagem de Grande Escala (LLMs) exibem capacidades impressionantes, mas requerem alinhamento cuidadoso com as preferências humanas. Métodos tradicionais de treinamento ajustam os LLMs usando conjuntos de dados de preferências humanas, porém incorrem em custos significativos de treinamento e exigem treinamento repetido para lidar com diversas preferências de usuários. Métodos de alinhamento no momento de teste abordam isso usando modelos de recompensa (RMs) para orientar os LLMs congelados sem retrabalho. No entanto, abordagens existentes no momento de teste dependem de RMs em nível de trajetória, que são projetados para avaliar respostas completas, tornando-os inadequados para geração de texto autoregressiva que requer o cálculo de recompensas do próximo token a partir de respostas parciais. Para lidar com isso, apresentamos o GenARM, uma abordagem de alinhamento no momento de teste que aproveita o Modelo de Recompensa Autoregressivo - uma parametrização de recompensa inovadora projetada para prever recompensas do próximo token para geração autoregressiva eficiente e eficaz. Teoricamente, demonstramos que essa parametrização pode guiar de forma comprovada os LLMs congelados em direção a qualquer distribuição alcançável por RMs tradicionais dentro do framework de aprendizado por reforço regularizado por KL. Resultados experimentais mostram que o GenARM supera significativamente baselines anteriores de alinhamento no momento de teste e iguala o desempenho de métodos no momento de treinamento. Além disso, o GenARM permite um direcionamento eficiente de fraco para forte, alinhando LLMs maiores com RMs menores sem os altos custos de treinar modelos maiores. Além disso, o GenARM suporta alinhamento multiobjetivo, permitindo compensações em tempo real entre dimensões de preferência e atendendo a diversas preferências de usuários sem retrabalho.

Synth-SONAR: Síntese de Imagens Sonar com Diversidade e Realismo Aprimorados através de Modelos de Difusão Dupla e Estímulo do GPT
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar

A síntese de imagens de sonar é crucial para avançar nas aplicações em exploração subaquática, biologia marinha e defesa. Métodos tradicionais frequentemente dependem de coleta extensiva e custosa de dados usando sensores de sonar, comprometendo a qualidade e diversidade dos dados. Para superar essas limitações, este estudo propõe um novo framework de síntese de imagens de sonar, Synth-SONAR, aproveitando modelos de difusão e prompts GPT. As principais inovações do Synth-SONAR são três: Primeiro, integrando técnicas de injeção de estilo baseadas em IA generativa juntamente com dados reais/simulados publicamente disponíveis, produzindo assim um dos maiores corpus de dados de sonar para pesquisa em sonar. Segundo, uma hierarquia de modelo de difusão de sonar de condicionamento de texto duplo sintetiza imagens de sonar grosseiras e detalhadas com qualidade e diversidade aprimoradas. Terceiro, métodos de geração de sonar baseados em texto de alto nível (grosseiro) e baixo nível (detalhado) aproveitam informações semânticas avançadas disponíveis em modelos de linguagem visual (VLMs) e prompts GPT. Durante a inferência, o método gera imagens de sonar diversas e realistas a partir de prompts textuais, preenchendo a lacuna entre descrições textuais e geração de imagens de sonar. Isso marca a aplicação de prompts GPT em imagens de sonar pela primeira vez, até onde sabemos. O Synth-SONAR alcança resultados de ponta na produção de conjuntos de dados de sonar sintéticos de alta qualidade, melhorando significativamente sua diversidade e realismo.

EvolveDirector: Abordando a Geração Avançada de Texto para Imagem com Modelos de Visão-Linguagem de Grande Escala
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou