Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

UCFE: Um Referencial de Expertise Financeira Centrado no Usuário para Modelos de Linguagem de Grande Escala
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Este artigo apresenta o UCFE: User-Centric Financial Expertise benchmark, um framework inovador projetado para avaliar a capacidade de grandes modelos de linguagem (LLMs) lidarem com tarefas financeiras do mundo real complexas. O benchmark UCFE adota uma abordagem híbrida que combina avaliações de especialistas humanos com interações dinâmicas e específicas da tarefa para simular as complexidades de cenários financeiros em evolução. Em primeiro lugar, realizamos um estudo de usuário envolvendo 804 participantes, coletando seus feedbacks sobre tarefas financeiras. Em segundo lugar, com base nesses feedbacks, criamos nosso conjunto de dados que abrange uma ampla gama de intenções e interações do usuário. Este conjunto de dados serve como base para a avaliação de 12 serviços LLM usando a metodologia LLM-como-Juíz. Nossos resultados mostram uma significativa concordância entre as pontuações do benchmark e as preferências humanas, com um coeficiente de correlação de Pearson de 0,78, confirmando a eficácia do conjunto de dados UCFE e nossa abordagem de avaliação. O benchmark UCFE não apenas revela o potencial dos LLMs no setor financeiro, mas também fornece um framework robusto para avaliar seu desempenho e a satisfação do usuário. O conjunto de dados do benchmark e o código de avaliação estão disponíveis.

Agentes Web com Modelos do Mundo: Aprendendo e Alavancando a Dinâmica do Ambiente na Navegação Web
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

Os modelos de linguagem grandes (LLMs) têm recebido muita atenção recentemente na construção de agentes autônomos. No entanto, o desempenho dos atuais agentes web baseados em LLM em tarefas de longo prazo está longe de ser ótimo, frequentemente resultando em erros como a compra repetida de uma passagem aérea não reembolsável. Em contraste, os humanos podem evitar esse tipo de erro irreversível, pois possuem consciência dos resultados potenciais (por exemplo, perda de dinheiro) de suas ações, também conhecida como "modelo do mundo". Motivado por isso, nosso estudo começa com análises preliminares, confirmando a ausência de modelos do mundo nos atuais LLMs (por exemplo, GPT-4o, Claude-3.5-Sonnet, etc.). Em seguida, apresentamos um agente web aumentado com um modelo do mundo (WMA), que simula os resultados de suas ações para uma tomada de decisão melhor. Para superar os desafios no treinamento de LLMs como modelos do mundo que preveem as próximas observações, como elementos repetidos entre observações e entradas HTML longas, propomos uma abstração de observação focada em transição, onde os objetivos de previsão são descrições de linguagem natural de forma livre que destacam exclusivamente as diferenças de estado importantes entre os passos temporais. Experimentos no WebArena e Mind2Web mostram que nossos modelos do mundo melhoram a seleção de políticas dos agentes sem treinamento e demonstram a eficiência em custo e tempo de nossos agentes em comparação com os agentes recentes baseados em busca em árvore.

NaturalBench: Avaliando Modelos de Visão e Linguagem em Amostras Naturais Adversárias
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

Os modelos visão-linguagem (VLMs) têm avançado significativamente nos benchmarks recentes de questionamento-resposta visual (VQA) que avaliam raciocínio visio-linguístico complexo. No entanto, esses modelos são verdadeiramente eficazes? Neste trabalho, demonstramos que os VLMs ainda enfrentam dificuldades com imagens naturais e perguntas que humanos podem responder facilmente, o que chamamos de amostras adversárias naturais. Também descobrimos ser surpreendentemente fácil gerar essas amostras VQA a partir de corpora de texto e imagem usando modelos prontos como CLIP e ChatGPT. Propomos uma abordagem semi-automatizada para coletar um novo benchmark, NaturalBench, para avaliar de forma confiável os VLMs com 10.000 amostras VQA verificadas por humanos. Crucialmente, adotamos um design centrado na visão, emparelhando cada pergunta com duas imagens que fornecem respostas diferentes, impedindo soluções cegas de responder sem usar as imagens. Isso torna o NaturalBench mais desafiador do que benchmarks anteriores que podem ser resolvidos com conhecimentos comuns. Avaliamos 53 VLMs de ponta no NaturalBench, mostrando que modelos como LLaVA-OneVision, Cambrian-1, Llama3.2-Vision, Molmo, Qwen2-VL e até GPT-4o ficam 50%-70% atrás do desempenho humano (acima de 90%). Analisamos por que o NaturalBench é difícil sob duas perspectivas: (1) Composicionalidade: Resolver o NaturalBench requer diversas habilidades visio-linguísticas, incluindo compreensão de associações de atributos, relacionamentos entre objetos e raciocínio avançado como lógica e contagem. Para isso, ao contrário de trabalhos anteriores que usam uma única tag por amostra, atribuímos de 1 a 8 tags de habilidades a cada amostra do NaturalBench para avaliação detalhada. (2) Viéses: O NaturalBench expõe viéses severos nos VLMs, já que os modelos frequentemente escolhem a mesma resposta independentemente da imagem. Por fim, aplicamos nosso método de curadoria de benchmark a diversas fontes de dados, incluindo legendas longas (mais de 100 palavras) e idiomas não-ingleses como chinês e hindi, destacando seu potencial para avaliações dinâmicas de VLMs.

MagicTailor: Personalização Controlável por Componentes em Modelos de Difusão Texto-para-Imagem
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

Os avanços recentes em modelos de difusão texto-imagem (T2I) possibilitaram a criação de imagens de alta qualidade a partir de instruções de texto, porém ainda enfrentam dificuldades em gerar imagens com controle preciso sobre conceitos visuais específicos. As abordagens existentes conseguem replicar um conceito dado aprendendo a partir de imagens de referência, no entanto, carecem de flexibilidade para a personalização detalhada dos componentes individuais dentro do conceito. Neste artigo, introduzimos a personalização controlável por componente, uma tarefa inovadora que amplia os limites dos modelos T2I ao permitir que os usuários reconfigurem componentes específicos ao personalizar conceitos visuais. Essa tarefa é particularmente desafiadora devido a dois obstáculos principais: poluição semântica, onde elementos visuais indesejados corrompem o conceito personalizado, e desequilíbrio semântico, que causa um aprendizado desproporcional do conceito e do componente. Para superar esses desafios, projetamos o MagicTailor, um framework inovador que utiliza a Degradação Mascarada Dinâmica (DM-Deg) para perturbar dinamicamente semânticas visuais indesejadas e o Balanceamento de Duplo Fluxo (DS-Bal) para estabelecer um paradigma de aprendizado equilibrado para semânticas visuais desejadas. Comparativos extensos, ablações e análises demonstram que o MagicTailor não apenas se destaca nessa tarefa desafiadora, mas também apresenta um grande potencial para aplicações práticas, abrindo caminho para geração de imagens mais refinada e criativa.

SeerAttention: Aprendizado de Atenção Esparsa Intrínseca em Seus LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

A atenção é a pedra angular dos Modelos de Linguagem Grandes (LLMs) modernos. No entanto, sua complexidade quadrática limita a eficiência e escalabilidade dos LLMs, especialmente para aqueles com uma janela de contexto longa. Uma abordagem promissora para lidar com essa limitação é aproveitar a esparsidade na atenção. No entanto, as soluções baseadas em esparsidade existentes predominantemente dependem de padrões predefinidos ou heurísticas para aproximar a esparsidade. Essa prática não consegue capturar totalmente a natureza dinâmica da esparsidade de atenção em tarefas baseadas em linguagem. Este artigo argumenta que a esparsidade de atenção deve ser aprendida em vez de predefinida. Para isso, projetamos o SeerAttention, um novo mecanismo de Atenção que complementa a atenção convencional com um portão aprendível que seleciona adaptativamente blocos significativos em um mapa de atenção e considera os demais blocos esparsos. Essa esparsidade em nível de bloco equilibra efetivamente a precisão e a aceleração. Para permitir a aprendizagem eficiente da rede de portões, desenvolvemos uma implementação FlashAttention personalizada que extrai a verdade fundamental em nível de bloco do mapa de atenção com um mínimo de sobrecarga. O SeerAttention não se aplica apenas ao pós-treinamento, mas também se destaca no ajuste fino de longo contexto. Nossos resultados mostram que nas fases pós-treinamento, o SeerAttention supera significativamente os métodos de atenção esparsa estáticos ou baseados em heurísticas de última geração, sendo também mais versátil e flexível para se adaptar a comprimentos de contexto variáveis e taxas de esparsidade. Quando aplicado ao ajuste fino de longo contexto com YaRN, o SeerAttention pode atingir uma notável taxa de esparsidade de 90% em um comprimento de contexto de 32k com uma perda mínima de perplexidade, oferecendo uma aceleração de 5,67 vezes em relação ao FlashAttention-2.

FiTv2: Transformer de Visão Flexível Aprimorado e Escalável para Modelos de Difusão
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

A natureza é infinitamente livre de resolução. No contexto desta realidade, os modelos de difusão existentes, como os Transformadores de Difusão, frequentemente enfrentam desafios ao processar resoluções de imagem fora de seu domínio treinado. Para lidar com essa limitação, conceitualizamos imagens como sequências de tokens com tamanhos dinâmicos, em vez de métodos tradicionais que percebem imagens como grades de resolução fixa. Essa perspectiva possibilita uma estratégia de treinamento flexível que acomoda facilmente várias razões de aspecto durante o treinamento e a inferência, promovendo assim a generalização de resolução e eliminando vieses introduzidos pelo recorte de imagem. Com base nisso, apresentamos o Transformador de Visão Flexível (FiT), uma arquitetura de transformer projetada especificamente para gerar imagens com resoluções e razões de aspecto ilimitadas. Aprimoramos ainda mais o FiT para o FiTv2 com vários designs inovadores, incluindo a normalização do vetor de Consulta-Chave, o módulo AdaLN-LoRA, um agendador de fluxo retificado e um amostrador Logit-Normal. Aprimorado por uma estrutura de rede meticulosamente ajustada, o FiTv2 exibe uma velocidade de convergência 2 vezes maior que o FiT. Ao incorporar técnicas avançadas de extrapolação sem treinamento, o FiTv2 demonstra uma notável adaptabilidade tanto na extrapolação de resolução quanto na geração de resoluções diversas. Além disso, nossa exploração da escalabilidade do modelo FiTv2 revela que modelos maiores apresentam uma melhor eficiência computacional. Além disso, introduzimos uma estratégia eficiente de pós-treinamento para adaptar um modelo pré-treinado para a geração de alta resolução. Experimentos abrangentes demonstram o desempenho excepcional do FiTv2 em uma ampla gama de resoluções. Disponibilizamos todos os códigos e modelos em https://github.com/whlzy/FiT para promover a exploração de modelos de transformadores de difusão para geração de imagens de resolução arbitrária.

DPLM-2: Um Modelo de Linguagem de Proteínas por Difusão Multimodal
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

As proteínas são macromoléculas essenciais definidas por suas sequências de aminoácidos, que determinam suas estruturas tridimensionais e, consequentemente, suas funções em todos os organismos vivos. Portanto, a modelagem generativa de proteínas exige uma abordagem multimodal para modelar, entender e gerar simultaneamente sequências e estruturas. No entanto, os métodos existentes geralmente utilizam modelos separados para cada modalidade, limitando sua capacidade de capturar as complexas relações entre sequência e estrutura. Isso resulta em desempenho subótimo em tarefas que exigem entendimento conjunto e geração de ambas as modalidades. Neste artigo, apresentamos o DPLM-2, um modelo de base de proteínas multimodal que estende o modelo de linguagem de proteínas de difusão discreta (DPLM) para acomodar tanto sequências quanto estruturas. Para permitir o aprendizado estrutural com o modelo de linguagem, as coordenadas 3D são convertidas em tokens discretos usando um tokenizador baseado em quantização sem pesquisa de consulta. Ao treinar em estruturas experimentais e sintéticas de alta qualidade, o DPLM-2 aprende a distribuição conjunta de sequência e estrutura, bem como suas marginais e condicionais. Também implementamos uma estratégia eficiente de aquecimento para explorar a conexão entre dados evolutivos em grande escala e viés indutivo estrutural de modelos de linguagem de proteínas pré-treinados baseados em sequência. A avaliação empírica mostra que o DPLM-2 pode gerar simultaneamente sequências de aminoácidos altamente compatíveis e suas estruturas 3D correspondentes, eliminando a necessidade de uma abordagem de geração em duas etapas. Além disso, o DPLM-2 demonstra desempenho competitivo em várias tarefas de geração condicional, incluindo dobramento, dobramento inverso e andaime com entradas de motivos multimodais, além de fornecer representações conscientes da estrutura para tarefas preditivas.

Mini-Omni2: Rumo ao GPT-4o de código aberto com capacidades de visão, fala e duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

O GPT-4o, um modelo abrangente, representa um marco no desenvolvimento de grandes modelos de linguagem multi-modais. Ele pode compreender modalidades visuais, auditivas e textuais, produzir áudio diretamente e suportar interação duplex flexível. Modelos da comunidade de código aberto frequentemente alcançam algumas funcionalidades do GPT-4o, como compreensão visual e chat de voz. No entanto, treinar um modelo unificado que incorpore todas as modalidades é desafiador devido às complexidades dos dados multi-modais, arquiteturas de modelo intricadas e processos de treinamento. Neste artigo, apresentamos o Mini-Omni2, um assistente visual-auditivo capaz de fornecer respostas de voz em tempo real de ponta a ponta para consultas visuais e auditivas. Ao integrar codificadores visuais e auditivos pré-treinados, o Mini-Omni2 mantém o desempenho em modalidades individuais. Propomos um processo de treinamento em três etapas para alinhar as modalidades, permitindo que o modelo de linguagem lide com entradas e saídas multi-modais após o treinamento em um conjunto de dados limitado. Para interação, introduzimos um mecanismo de interrupção baseado em comandos, possibilitando uma interação mais flexível com os usuários. Até onde sabemos, o Mini-Omni2 é uma das reproduções mais próximas do GPT-4o, que possuem formas semelhantes de funcionalidade, e esperamos que possa oferecer insights valiosos para pesquisas subsequentes.

HART: Geração Visual Eficiente com Transformador Autoregressivo Híbrido
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

Apresentamos o Transformer Autoregressivo Híbrido (HART), um modelo de geração visual autoregressivo capaz de gerar diretamente imagens de 1024x1024, rivalizando com modelos de difusão em qualidade de geração de imagens. Modelos autoregressivos existentes enfrentam limitações devido à baixa qualidade de reconstrução de imagem de seus tokenizadores discretos e aos altos custos de treinamento associados à geração de imagens de 1024px. Para enfrentar esses desafios, apresentamos o tokenizador híbrido, que decompõe os latentes contínuos do autoencoder em dois componentes: tokens discretos representando a imagem geral e tokens contínuos representando os componentes residuais que não podem ser representados pelos tokens discretos. O componente discreto é modelado por um modelo AR discreto de resolução escalável, enquanto o componente contínuo é aprendido com um módulo de difusão residual leve com apenas 37M parâmetros. Comparado com o tokenizador VAR apenas discreto, nossa abordagem híbrida melhora o FID de reconstrução de 2,11 para 0,30 no MJHQ-30K, resultando em uma melhoria de 31% no FID de geração de 7,85 para 5,38. O HART também supera os modelos de difusão de ponta tanto em FID quanto em pontuação CLIP, com uma taxa de transferência 4,5-7,7 vezes maior e MACs 6,9-13,4 vezes menores. Nosso código está disponível em código aberto em https://github.com/mit-han-lab/hart.

Currículo de Difusão: Aprendizado de Currículo Generativo Sintético-para-Real via Difusão Guiada por Imagem
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

Dados de baixa qualidade ou escassos têm representado desafios significativos para o treinamento de redes neurais profundas na prática. Enquanto a tradicional ampliação de dados não pode contribuir com dados muito diferentes, os modelos de difusão abrem uma nova porta para construir uma IA autoevolutiva, gerando dados sintéticos de alta qualidade e diversos por meio de instruções orientadas por texto. No entanto, a orientação apenas por texto não consegue controlar a proximidade das imagens sintéticas em relação às imagens originais, resultando em dados fora da distribuição prejudiciais ao desempenho do modelo. Para superar essa limitação, estudamos a orientação por imagem para alcançar um espectro de interpolações entre imagens sintéticas e reais. Com uma orientação por imagem mais forte, as imagens geradas são semelhantes aos dados de treinamento, porém difíceis de aprender. Enquanto com uma orientação por imagem mais fraca, as imagens sintéticas serão mais fáceis para o modelo, mas contribuirão para uma lacuna de distribuição maior com os dados originais. O amplo espectro de dados gerados nos permite construir um novo "Currículo de Difusão (DisCL)". O DisCL ajusta o nível de orientação por imagem da síntese de imagens para cada etapa de treinamento: identifica e foca em amostras difíceis para o modelo e avalia o nível de orientação mais eficaz das imagens sintéticas para melhorar a aprendizagem de dados difíceis. Aplicamos o DisCL a duas tarefas desafiadoras: classificação de cauda longa (LT) e aprendizado a partir de dados de baixa qualidade. Ele se concentra em imagens de baixa orientação de alta qualidade para aprender características prototípicas como um aquecimento para a aprendizagem de imagens de alta orientação que podem ser carentes de diversidade ou qualidade. Experimentos extensos demonstram um ganho de 2,7% e 2,1% na macro precisão fora da distribuição (OOD) e dentro da distribuição (ID) ao aplicar o DisCL ao conjunto de dados iWildCam. No ImageNet-LT, o DisCL melhora a precisão da classe de cauda do modelo base de 4,4% para 23,64% e resulta em um aumento de 4,02% na precisão de todas as classes.

DAWN: Avatar de Quadro Dinâmico com Estrutura de Difusão Não-Autoregressiva para Geração de Vídeo de Cabeça Falante
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

A geração de cabeças falantes tem como objetivo produzir vídeos de cabeças falantes vívidos e realistas a partir de um único retrato e um clipe de áudio de fala. Embora tenham sido feitos progressos significativos na geração de cabeças falantes baseada em difusão, quase todos os métodos dependem de estratégias autoregressivas, que sofrem com a utilização limitada de contexto além do passo de geração atual, acúmulo de erros e velocidade de geração mais lenta. Para enfrentar esses desafios, apresentamos DAWN (Avatar de Quadro Dinâmico com difusão não autoregressiva), um framework que permite a geração de sequências de vídeo de comprimento dinâmico de uma só vez. Especificamente, ele é composto por dois componentes principais: (1) geração de dinâmica facial holística impulsionada por áudio no espaço de movimento latente e (2) geração de pose de cabeça e piscar de olhos impulsionada por áudio. Experimentos extensivos demonstram que nosso método gera vídeos autênticos e vívidos com movimentos precisos dos lábios e movimentos naturais de pose/piscar de olhos. Além disso, com uma alta velocidade de geração, o DAWN possui fortes capacidades de extrapolação, garantindo a produção estável de vídeos longos de alta qualidade. Estes resultados destacam a considerável promessa e impacto potencial do DAWN no campo da geração de vídeos de cabeças falantes. Além disso, esperamos que o DAWN estimule uma maior exploração de abordagens não autoregressivas em modelos de difusão. Nosso código estará disponível publicamente em https://github.com/Hanbo-Cheng/DAWN-pytorch.

Os Detectores de IA São Suficientemente Bons? Uma Pesquisa sobre a Qualidade de Conjuntos de Dados com Textos Gerados por Máquina.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

O rápido desenvolvimento de Modelos de Linguagem Autoregressivos (LLMs) tem melhorado significativamente a qualidade dos textos gerados, tornando necessária a existência de detectores de texto gerado por máquina confiáveis. Um grande número de detectores e coleções com fragmentos de IA surgiram, e diversos métodos de detecção até mostraram qualidade de reconhecimento de até 99,9% de acordo com as métricas-alvo nessas coleções. No entanto, a qualidade desses detectores tende a cair drasticamente em ambientes reais, levantando a questão: Os detectores são realmente altamente confiáveis ou seus altos índices de referência vêm da baixa qualidade dos conjuntos de dados de avaliação? Neste artigo, enfatizamos a necessidade de métodos robustos e qualitativos para avaliar dados gerados a fim de garantir segurança contra viés e baixa capacidade de generalização de futuros modelos. Apresentamos uma revisão sistemática de conjuntos de dados de competições dedicadas à detecção de conteúdo gerado por IA e propomos métodos para avaliar a qualidade de conjuntos de dados contendo fragmentos gerados por IA. Além disso, discutimos a possibilidade de usar dados gerados de alta qualidade para alcançar dois objetivos: melhorar o treinamento de modelos de detecção e aprimorar os próprios conjuntos de dados de treinamento. Nossa contribuição visa facilitar uma melhor compreensão da dinâmica entre texto humano e de máquina, o que, em última instância, apoiará a integridade da informação em um mundo cada vez mais automatizado.

Olhando para Dentro: Modelos de Linguagem Podem Aprender Sobre Eles Mesmos por Meio de Introspecção
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

Os humanos adquirem conhecimento observando o mundo externo, mas também por meio da introspecção. A introspecção proporciona a uma pessoa acesso privilegiado ao seu estado mental atual (por exemplo, pensamentos e sentimentos) que não é acessível a observadores externos. Será que os LLMs podem introspectar? Definimos introspecção como a aquisição de conhecimento que não está contido nos dados de treinamento nem é derivado deles, mas sim que se origina de estados internos. Essa capacidade poderia aprimorar a interpretabilidade do modelo. Em vez de analisar minuciosamente o funcionamento interno de um modelo, poderíamos simplesmente perguntar ao modelo sobre suas crenças, modelos do mundo e objetivos. De forma mais especulativa, um modelo introspectivo poderia relatar se possui certos estados internos, como sentimentos subjetivos ou desejos, e isso poderia nos informar sobre o status moral desses estados. Tais autorrelatos não seriam totalmente ditados pelos dados de treinamento do modelo. Estudamos a introspecção ao ajustar finamente os LLMs para prever propriedades de seu próprio comportamento em cenários hipotéticos. Por exemplo, "Dado o input P, sua saída favoreceria a opção de curto ou longo prazo?" Se um modelo M1 puder introspectar, ele deverá superar um modelo diferente M2 na previsão do comportamento de M1, mesmo que M2 seja treinado no comportamento verdadeiro de M1. A ideia é que M1 tem acesso privilegiado às suas próprias tendências comportamentais, o que lhe permite se prever melhor do que M2 (mesmo que M2 seja geralmente mais forte). Em experimentos com os modelos GPT-4, GPT-4o e Llama-3 (cada um ajustado para prever a si mesmo), descobrimos que o modelo M1 supera M2 na previsão de si mesmo, fornecendo evidências de introspecção. Notavelmente, M1 continua a prever seu comportamento com precisão mesmo depois de modificarmos intencionalmente seu comportamento verdadeiro. No entanto, embora tenhamos obtido sucesso em elicitar introspecção em tarefas simples, não fomos bem-sucedidos em tarefas mais complexas ou que exigem generalização fora da distribuição.

SHAKTI: Um Pequeno Modelo de Linguagem com 2,5 Bilhões de Parâmetros Otimizado para IA em Borda e Ambientes de Recursos Limitados
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

Apresentamos o Shakti, um modelo de linguagem com 2,5 bilhões de parâmetros, otimizado especificamente para ambientes com recursos limitados, como dispositivos de borda, incluindo smartphones, dispositivos vestíveis e sistemas IoT. O Shakti combina NLP de alto desempenho com eficiência e precisão otimizadas, tornando-o ideal para aplicações de IA em tempo real onde os recursos computacionais e a memória são limitados. Com suporte para idiomas vernáculos e tarefas específicas de domínio, o Shakti se destaca em setores como saúde, finanças e atendimento ao cliente. Avaliações de referência demonstram que o Shakti tem desempenho competitivo em relação a modelos maiores, mantendo baixa latência e eficiência no dispositivo, posicionando-o como uma solução líder para IA de borda.

BiGR: Aproveitando Códigos Latentes Binários para Geração de Imagens e Melhoria das Capacidades de Representação Visual
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

Apresentamos BiGR, um modelo de geração de imagens condicionais inovador que utiliza códigos latentes binários compactos para treinamento generativo, com foco em aprimorar tanto a geração quanto as capacidades de representação. BiGR é o primeiro modelo generativo condicional que unifica geração e discriminação dentro do mesmo framework. BiGR apresenta um tokenizador binário, um mecanismo de modelagem mascarada e um transcodificador binário para previsão de códigos binários. Além disso, introduzimos um novo método de amostragem ordenada por entropia para possibilitar uma geração eficiente de imagens. Experimentos extensivos validam o desempenho superior do BiGR em qualidade de geração, medida pelo FID-50k, e em capacidades de representação, conforme evidenciado pela precisão da sonda linear. Além disso, o BiGR demonstra generalização sem necessidade de ajustes estruturais em várias tarefas de visão, possibilitando aplicações como inpainting, outpainting, edição, interpolação e enriquecimento de imagens. Nossas descobertas sugerem que o BiGR unifica de forma eficaz tarefas generativas e discriminativas, abrindo caminho para avanços adicionais no campo.

O Contexto é a Chave (NMF): Modelando a Dinâmica da Informação Temática na Mídia da Diáspora Chinesa
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

A República Popular da China (RPC) interfere nas eleições europeias através dos meios de comunicação da diáspora chinesa? Esta questão constitui a base de um projeto de pesquisa em andamento que explora como as narrativas da RPC sobre as eleições europeias são representadas nos meios de comunicação da diáspora chinesa, e, portanto, os objetivos da manipulação de notícias da RPC. Para estudar os meios de comunicação da diáspora de forma eficiente e em larga escala, é necessário utilizar técnicas derivadas da análise quantitativa de texto, como modelagem de tópicos. Neste artigo, apresentamos um pipeline para estudar a dinâmica da informação na mídia chinesa. Em primeiro lugar, apresentamos o KeyNMF, uma nova abordagem para modelagem de tópicos estática e dinâmica usando modelos de incorporação contextual baseados em transformadores. Fornecemos avaliações de referência para demonstrar que nossa abordagem é competitiva em diversos conjuntos de dados e métricas chinesas. Em segundo lugar, integramos o KeyNMF com métodos existentes para descrever a dinâmica da informação em sistemas complexos. Aplicamos este pipeline a dados de cinco sites de notícias, focando no período que antecede as eleições parlamentares europeias de 2024. Nossos métodos e resultados demonstram a eficácia do KeyNMF para estudar a dinâmica da informação na mídia chinesa e lançam as bases para trabalhos futuros que abordem questões de pesquisa mais amplas.

Como os Métodos de Treinamento Influenciam a Utilização de Modelos de Visão?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

N Nem todos os parâmetros aprendíveis (por exemplo, pesos) contribuem igualmente para a função de decisão de uma rede neural. Na verdade, os parâmetros de camadas inteiras às vezes podem ser redefinidos para valores aleatórios com pouco ou nenhum impacto nas decisões do modelo. Revisitamos estudos anteriores que examinaram como a arquitetura e a complexidade da tarefa influenciam esse fenômeno e perguntamos: esse fenômeno também é afetado pela forma como treinamos o modelo? Realizamos avaliações experimentais em um conjunto diversificado de modelos de classificação ImageNet-1k para explorar isso, mantendo a arquitetura e os dados de treinamento constantes, mas variando o pipeline de treinamento. Nossas descobertas revelam que o método de treinamento influencia fortemente quais camadas se tornam críticas para a função de decisão de uma determinada tarefa. Por exemplo, regimes de treinamento aprimorados e treinamento auto-supervisionado aumentam a importância das camadas iniciais, enquanto subutilizam significativamente as camadas mais profundas. Em contraste, métodos como treinamento adversarial exibem uma tendência oposta. Nossos resultados preliminares ampliam descobertas anteriores, oferecendo uma compreensão mais refinada dos mecanismos internos de redes neurais. Código: https://github.com/paulgavrikov/layer_criticality

Uma Armadilha Comum na Alinhamento de Modelos de Linguagem Baseados em Margem: Entrelaçamento de Gradiente
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

Aprendizado por Reforço a partir de Feedback Humano (ARFH) tornou-se a abordagem predominante para o alinhamento de modelos de linguagem (ML). Em sua essência, o ARFH utiliza uma perda baseada em margem para otimização de preferências, especificando o comportamento ideal do ML apenas pela diferença entre respostas preferidas e não preferidas. Neste artigo, identificamos uma armadilha comum dos métodos baseados em margem - a subespecificação do comportamento ideal do ML em respostas preferidas e não preferidas individualmente, o que leva a duas consequências não intencionais à medida que a margem aumenta: (1) A probabilidade de respostas não preferidas (por exemplo, inseguras) pode aumentar, resultando em possíveis falhas de alinhamento de segurança. (2) A probabilidade de respostas preferidas pode diminuir, mesmo quando essas respostas são ideais. Desmistificamos as razões por trás desses comportamentos problemáticos: as perdas baseadas em margem acoplam a mudança na probabilidade preferida ao gradiente da não preferida, e vice-versa, frequentemente impedindo que a probabilidade preferida aumente enquanto a não preferida diminui, causando assim um aumento ou diminuição sincronizados em ambas as probabilidades. Denominamos esse efeito, inerente aos objetivos baseados em margem, de entrelaçamento de gradientes. Formalmente, derivamos condições para objetivos gerais de alinhamento baseados em margem nos quais o entrelaçamento de gradientes se torna preocupante: o produto interno dos gradientes das log-probabilidades preferidas e não preferidas é grande em relação às normas individuais dos gradientes. Investigamos teoricamente por que tais produtos internos podem ser grandes ao alinhar modelos de linguagem e validamos empiricamente nossas descobertas. As implicações empíricas de nosso framework se estendem a explicar diferenças importantes na dinâmica de treinamento de vários algoritmos de otimização de preferências e sugerir possíveis designs de algoritmos para mitigar o problema de subespecificação dos métodos baseados em margem e, assim, melhorar o alinhamento de modelos de linguagem.

Ensinar modelos a equilibrar a resistência e aceitação da persuasão.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal

Os modelos de linguagem de grande escala (LLMs) são suscetíveis à persuasão, o que pode representar riscos quando os modelos são confrontados com um interlocutor adversário. Damos um primeiro passo em direção à defesa dos modelos contra a persuasão, argumentando também que a defesa contra a persuasão adversarial (ou seja, negativa) é apenas metade da equação: os modelos também devem ser capazes de aceitar persuasão benéfica (ou seja, positiva) para melhorar suas respostas. Mostramos que otimizar os modelos apenas para um lado resulta em baixo desempenho no outro. Para equilibrar a persuasão positiva e negativa, introduzimos o Treinamento Balanceado de Persuasão (ou PBT), que utiliza árvores de diálogo recursivas multiagentes para criar dados e treinar modelos por meio da otimização de preferências para aceitar persuasão quando apropriado. O PBT melhora consistentemente a resistência à desinformação e a resiliência ao ser desafiado, resultando também no melhor desempenho geral em dados holísticos contendo tanto persuasão positiva quanto negativa. Crucialmente, mostramos que os modelos PBT são melhores parceiros em debates multiagentes. Descobrimos que, sem o PBT, pares de modelos mais fortes e mais fracos têm desempenho instável, com a ordem em que os modelos apresentam suas respostas determinando se a equipe obtém o desempenho do modelo mais forte ou mais fraco. O PBT leva a resultados melhores e mais estáveis e menos dependência da ordem, com o modelo mais forte puxando consistentemente o mais fraco para cima.

Montessori-Instruct: Gerar Dados de Treinamento Influenciadores Adaptados para Aprendizagem do Estudante
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong

Dados sintéticos têm sido amplamente utilizados para treinar grandes modelos de linguagem, mas sua natureza generativa inevitavelmente introduz sinais de aprendizado ruidosos, não informativos e enganosos. Neste artigo, propomos Montessori-Instruct, um novo framework de síntese de dados que adapta a capacidade de síntese de dados do modelo de linguagem professor ao processo de aprendizado do modelo de linguagem aluno. Especificamente, utilizamos a influência local dos dados sintéticos de treinamento nos alunos para caracterizar as preferências de aprendizado dos alunos. Em seguida, treinamos o modelo professor com a Otimização Direta de Preferência (ODP) para gerar dados sintéticos adaptados às preferências de aprendizado dos alunos. Experimentos com Llama3-8B-Instruct (professor) e Llama3-8B (aluno) no Alpaca Eval e MT-Bench demonstram que Montessori-Instruct supera significativamente os métodos de síntese padrão em 18,35% e 46,24%, respectivamente. Nosso método também supera os dados sintetizados por um modelo professor mais robusto, GPT-4o. Análises adicionais confirmam os benefícios do aprendizado do professor para gerar dados de treinamento mais influentes no aprendizado aprimorado do aluno, as vantagens da influência local dos dados na medição precisa das preferências dos alunos e a robustez do Montessori-Instruct em diferentes modelos de alunos. Nosso código e dados estão disponíveis em código aberto em https://github.com/cxcscmu/Montessori-Instruct.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

UCFE: Um Referencial de Expertise Financeira Centrado no Usuário para Modelos de Linguagem de Grande Escala
UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

Oct 17

ByYuzhe Yang, Yifei Zhang, Yan Hu, Yilin Guo, Ruoli Gan, Yueru He, Mingcong Lei, Xiao Zhang, Haining Wang, Qianqian Xie, Jimin Huang, Honghai Yu, Benyou Wang

Agentes Web com Modelos do Mundo: Aprendendo e Alavancando a Dinâmica do Ambiente na Navegação Web
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation

Oct 17

ByHyungjoo Chae, Namyoung Kim, Kai Tzu-iunn Ong, Minju Gwak, Gwanwoo Song, Jihoon Kim, Sunghwan Kim, Dongha Lee, Jinyoung Yeo

NaturalBench: Avaliando Modelos de Visão e Linguagem em Amostras Naturais Adversárias
NaturalBench: Evaluating Vision-Language Models on Natural Adversarial Samples

Oct 18

ByBaiqi Li, Zhiqiu Lin, Wenxuan Peng, Jean de Dieu Nyandwi, Daniel Jiang, Zixian Ma, Simran Khanuja, Ranjay Krishna, Graham Neubig, Deva Ramanan

MagicTailor: Personalização Controlável por Componentes em Modelos de Difusão Texto-para-Imagem
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models

Oct 17

ByDonghao Zhou, Jiancheng Huang, Jinbin Bai, Jiaze Wang, Hao Chen, Guangyong Chen, Xiaowei Hu, Pheng-Ann Heng

SeerAttention: Aprendizado de Atenção Esparsa Intrínseca em Seus LLMs
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs

Oct 17

ByYizhao Gao, Zhichen Zeng, Dayou Du, Shijie Cao, Hayden Kwok-Hay So, Ting Cao, Fan Yang, Mao Yang

FiTv2: Transformer de Visão Flexível Aprimorado e Escalável para Modelos de Difusão
FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model

Oct 17

ByZiDong Wang, Zeyu Lu, Di Huang, Cai Zhou, Wanli Ouyang, and Lei Bai

DPLM-2: Um Modelo de Linguagem de Proteínas por Difusão Multimodal
DPLM-2: A Multimodal Diffusion Protein Language Model

Oct 17

ByXinyou Wang, Zaixiang Zheng, Fei Ye, Dongyu Xue, Shujian Huang, Quanquan Gu

Mini-Omni2: Rumo ao GPT-4o de código aberto com capacidades de visão, fala e duplex
Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities

Oct 15

ByZhifei Xie, Changqiao Wu

HART: Geração Visual Eficiente com Transformador Autoregressivo Híbrido
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

Oct 14

ByHaotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han

Currículo de Difusão: Aprendizado de Currículo Generativo Sintético-para-Real via Difusão Guiada por Imagem
Diffusion Curriculum: Synthetic-to-Real Generative Curriculum Learning via Image-Guided Diffusion

Oct 17

ByYijun Liang, Shweta Bhardwaj, Tianyi Zhou

DAWN: Avatar de Quadro Dinâmico com Estrutura de Difusão Não-Autoregressiva para Geração de Vídeo de Cabeça Falante
DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation

Oct 17

ByHanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

Os Detectores de IA São Suficientemente Bons? Uma Pesquisa sobre a Qualidade de Conjuntos de Dados com Textos Gerados por Máquina.
Are AI Detectors Good Enough? A Survey on Quality of Datasets With Machine-Generated Texts

Oct 18

ByGerman Gritsai, Anastasia Voznyuk, Andrey Grabovoy, Yury Chekhovich

Olhando para Dentro: Modelos de Linguagem Podem Aprender Sobre Eles Mesmos por Meio de Introspecção
Looking Inward: Language Models Can Learn About Themselves by Introspection

Oct 17

ByFelix J Binder, James Chua, Tomek Korbak, Henry Sleight, John Hughes, Robert Long, Ethan Perez, Miles Turpin, Owain Evans

SHAKTI: Um Pequeno Modelo de Linguagem com 2,5 Bilhões de Parâmetros Otimizado para IA em Borda e Ambientes de Recursos Limitados
SHAKTI: A 2.5 Billion Parameter Small Language Model Optimized for Edge AI and Low-Resource Environments

Oct 15

BySyed Abdul Gaffar Shakhadri, Kruthika KR, Rakshit Aralimatti

BiGR: Aproveitando Códigos Latentes Binários para Geração de Imagens e Melhoria das Capacidades de Representação Visual
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities

Oct 18

ByShaozhe Hao, Xuantong Liu, Xianbiao Qi, Shihao Zhao, Bojia Zi, Rong Xiao, Kai Han, Kwan-Yee K. Wong

O Contexto é a Chave (NMF): Modelando a Dinâmica da Informação Temática na Mídia da Diáspora Chinesa
Context is Key(NMF): Modelling Topical Information Dynamics in Chinese Diaspora Media

Oct 16

ByRoss Deans Kristensen-McLachlan, Rebecca M. M. Hicke, Márton Kardos, Mette Thunø

Como os Métodos de Treinamento Influenciam a Utilização de Modelos de Visão?
How Do Training Methods Influence the Utilization of Vision Models?

Oct 18

ByPaul Gavrikov, Shashank Agnihotri, Margret Keuper, Janis Keuper

Uma Armadilha Comum na Alinhamento de Modelos de Linguagem Baseados em Margem: Entrelaçamento de Gradiente
A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement

Oct 17

ByHui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

Ensinar modelos a equilibrar a resistência e aceitação da persuasão.
Teaching Models to Balance Resisting and Accepting Persuasion

Oct 18

ByElias Stengel-Eskin, Peter Hase, Mohit Bansal

Montessori-Instruct: Gerar Dados de Treinamento Influenciadores Adaptados para Aprendizagem do Estudante
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning

Oct 18

ByXiaochuan Li, Zichun Yu, Chenyan Xiong