ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

RepText: Renderização de Texto Visual via Replicação
RepText: Rendering Visual Text via Replicating

Apr 28
ByHaofan Wang, Yujia Xu, Yimeng Li, Junchen Li, Chaowei Zhang, Jing Wang, Kejia Yang, Zhibo Chen
31
4

Embora os modelos contemporâneos de geração de texto para imagem tenham alcançado avanços notáveis na produção de imagens visualmente atraentes, sua capacidade de gerar elementos tipográficos precisos e flexíveis, especialmente em alfabetos não latinos, permanece limitada. Para abordar essas limitações, partimos de uma suposição ingênua de que a compreensão do texto é apenas uma condição suficiente para a renderização do texto, mas não uma condição necessária. Com base nisso, apresentamos o RepText, que visa capacitar modelos pré-treinados de geração de texto para imagem monolíngues com a capacidade de renderizar com precisão, ou mais precisamente, replicar, texto visual multilíngue em fontes especificadas pelo usuário, sem a necessidade de realmente compreendê-lo. Especificamente, adotamos a configuração do ControlNet e integramos adicionalmente glifos e posições de texto renderizado agnósticos ao idioma para permitir a geração de texto visual harmonizado, permitindo que os usuários personalizem o conteúdo do texto, a fonte e a posição conforme suas necessidades. Para melhorar a precisão, uma perda perceptual de texto é empregada junto com a perda de difusão. Além disso, para estabilizar o processo de renderização, na fase de inferência, inicializamos diretamente com latentes de glifos ruidosos em vez de inicialização aleatória, e adotamos máscaras de região para restringir a injeção de recursos apenas à região do texto, evitando a distorção do fundo. Realizamos extensos experimentos para verificar a eficácia do nosso RepText em relação aos trabalhos existentes, nossa abordagem supera os métodos de código aberto existentes e alcança resultados comparáveis aos modelos nativos multilíngues de código fechado. Para ser mais justo, também discutimos exaustivamente suas limitações no final.

2

O conhecimento clínico em LLMs não se traduz em interações humanas.
Clinical knowledge in LLMs does not translate to human interactions

Apr 26
ByAndrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapié Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi
26
5

Provedores globais de saúde estão explorando o uso de modelos de linguagem de grande escala (LLMs) para fornecer orientações médicas ao público. Atualmente, os LLMs alcançam pontuações quase perfeitas em exames de licenciamento médico, mas isso não necessariamente se traduz em desempenho preciso em cenários do mundo real. Testamos se os LLMs podem auxiliar membros do público na identificação de condições subjacentes e na escolha de um curso de ação (disposição) em dez cenários médicos, em um estudo controlado com 1.298 participantes. Os participantes foram aleatoriamente designados para receber assistência de um LLM (GPT-4o, Llama 3, Command R+) ou de uma fonte de sua escolha (grupo de controle). Testados isoladamente, os LLMs completam os cenários com precisão, identificando corretamente as condições em 94,9% dos casos e a disposição em 56,3%, em média. No entanto, os participantes que utilizaram os mesmos LLMs identificaram condições relevantes em menos de 34,5% dos casos e a disposição em menos de 44,2%, ambos não melhores que o grupo de controle. Identificamos as interações do usuário como um desafio para a implantação de LLMs para orientações médicas. Benchmarks padrão para conhecimento médico e interações simuladas com pacientes não preveem as falhas que encontramos com participantes humanos. Avançando, recomendamos testes sistemáticos com usuários humanos para avaliar capacidades interativas antes de implantações públicas na área da saúde.

3

Agentes GUI Alimentados por LLM na Automação de Telefones: Analisando Progressos e Perspectivas
LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

Apr 28
ByGuangyi Liu, Pengxiang Zhao, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, Wenhao Wang, Tianze Wu, Linghao Li, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li
22
4

Com o rápido surgimento dos grandes modelos de linguagem (LLMs), a automação em dispositivos móveis passou por transformações significativas. Este artigo revisa sistematicamente os agentes de interface gráfica (GUI) para telefones impulsionados por LLMs, destacando sua evolução desde a automação baseada em scripts até sistemas inteligentes e adaptativos. Primeiro, contextualizamos os principais desafios: (i) generalidade limitada, (ii) alta sobrecarga de manutenção e (iii) compreensão fraca de intenções, e mostramos como os LLMs abordam essas questões por meio de compreensão avançada de linguagem, percepção multimodal e tomada de decisão robusta. Em seguida, propomos uma taxonomia que abrange frameworks fundamentais de agentes (agente único, multiagente, planejar-depois-agir), abordagens de modelagem (engenharia de prompts, baseada em treinamento) e conjuntos de dados e benchmarks essenciais. Além disso, detalhamos arquiteturas específicas para tarefas, ajuste fino supervisionado e estratégias de aprendizado por reforço que conectam a intenção do usuário às operações da GUI. Por fim, discutimos desafios em aberto, como diversidade de conjuntos de dados, eficiência de implantação em dispositivos, adaptação centrada no usuário e preocupações de segurança, oferecendo insights prospectivos para esse campo em rápida evolução. Ao fornecer uma visão estruturada e identificar lacunas de pesquisa urgentes, este artigo serve como uma referência definitiva para pesquisadores e profissionais que buscam aproveitar os LLMs no design de agentes de GUI para telefones escaláveis e amigáveis ao usuário.

4

Mem0: Construindo Agentes de IA Prontos para Produção com Memória de Longo Prazo Escalável
Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory

Apr 28
ByPrateek Chhikara, Dev Khant, Saket Aryan, Taranjeet Singh, Deshraj Yadav
18
2

Modelos de Linguagem de Grande Escala (LLMs) demonstraram uma habilidade notável em gerar respostas contextualmente coerentes, mas suas janelas de contexto fixas apresentam desafios fundamentais para manter a consistência em diálogos prolongados e multi-sessão. Introduzimos o Mem0, uma arquitetura escalável centrada em memória que aborda essa questão ao extrair, consolidar e recuperar dinamicamente informações relevantes de conversas em andamento. Com base nessa fundação, propomos ainda uma variante aprimorada que utiliza representações de memória baseadas em grafos para capturar estruturas relacionais complexas entre elementos conversacionais. Por meio de avaliações abrangentes no benchmark LOCOMO, comparamos sistematicamente nossas abordagens contra seis categorias de baseline: (i) sistemas estabelecidos aumentados por memória, (ii) geração aumentada por recuperação (RAG) com diferentes tamanhos de fragmentos e valores de k, (iii) uma abordagem de contexto completo que processa todo o histórico da conversa, (iv) uma solução de memória de código aberto, (v) um sistema de modelo proprietário, e (vi) uma plataforma dedicada de gerenciamento de memória. Resultados empíricos mostram que nossos métodos superam consistentemente todos os sistemas de memória existentes em quatro categorias de perguntas: salto único, temporal, multi-salto e domínio aberto. Notavelmente, o Mem0 alcança uma melhoria relativa de 26% na métrica LLM-as-a-Judge em relação à OpenAI, enquanto o Mem0 com memória em grafo atinge uma pontuação geral cerca de 2% maior do que a configuração base. Além dos ganhos em precisão, também reduzimos significativamente a sobrecarga computacional em comparação com o método de contexto completo. Em particular, o Mem0 atinge uma latência p95 91% menor e economiza mais de 90% no custo de tokens, oferecendo um equilíbrio convincente entre capacidades avançadas de raciocínio e restrições práticas de implantação. Nossas descobertas destacam o papel crítico de mecanismos de memória estruturada e persistente para a coerência conversacional de longo prazo, abrindo caminho para agentes de IA impulsionados por LLMs mais confiáveis e eficientes.

5

SPC: Evolução do Crítico de Autojogo por meio de Jogos Adversariais para Raciocínio em Modelos de Linguagem de Grande Escala
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning

Apr 27
ByJiaqi Chen, Bang Zhang, Ruotian Ma, Peisong Wang, Xiaodan Liang, Zhaopeng Tu, Xiaolong Li, Kwan-Yee K. Wong
18
2

Avaliar a confiabilidade passo a passo do raciocínio de modelos de linguagem de grande escala (LLM), como o Chain-of-Thought, continua sendo um desafio devido à dificuldade e ao custo de obter supervisão de alta qualidade em nível de etapa. Neste artigo, apresentamos o Self-Play Critic (SPC), uma abordagem inovadora em que um modelo crítico evolui sua capacidade de avaliar etapas de raciocínio por meio de jogos adversariais de autojogo, eliminando a necessidade de anotação manual em nível de etapa. O SPC envolve o ajuste fino de duas cópias de um modelo base para desempenhar dois papéis: um "gerador sorrateiro" que deliberadamente produz etapas errôneas projetadas para serem difíceis de detectar, e um "crítico" que analisa a correção das etapas de raciocínio. Esses dois modelos se envolvem em um jogo adversarial no qual o gerador visa enganar o crítico, enquanto o modelo crítico busca identificar os erros do gerador. Usando aprendizado por reforço baseado nos resultados do jogo, os modelos melhoram iterativamente; o vencedor de cada confronto recebe uma recompensa positiva e o perdedor recebe uma recompensa negativa, impulsionando uma contínua auto-evolução. Experimentos em três benchmarks de processos de raciocínio (ProcessBench, PRM800K, DeltaBench) demonstram que nosso SPC aprimora progressivamente suas capacidades de detecção de erros (por exemplo, a precisão aumenta de 70,8% para 77,7% no ProcessBench) e supera fortes baselines, incluindo o modelo R1 destilado. Além disso, a aplicação do SPC para orientar a busca em tempo de teste de diversos LLMs melhora significativamente seu desempenho em raciocínio matemático no MATH500 e AIME2024, superando os modelos de recompensa de processo mais avançados.

6

CipherBank: Explorando os Limites das Capacidades de Raciocínio de LLMs por meio de Desafios de Criptografia
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges

Apr 27
ByYu Li, Qizhi Pei, Mengyuan Sun, Honglin Lin, Chenlin Ming, Xin Gao, Jiang Wu, Conghui He, Lijun Wu
17
4

Modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, especialmente com os recentes avanços em raciocínio, como o1 e o3, que estão expandindo os limites da IA. Apesar dessas conquistas impressionantes em matemática e codificação, as habilidades de raciocínio dos LLMs em domínios que exigem expertise criptográfica permanecem pouco exploradas. Neste artigo, apresentamos o CipherBank, um benchmark abrangente projetado para avaliar as capacidades de raciocínio dos LLMs em tarefas de descriptografia criptográfica. O CipherBank é composto por 2.358 problemas meticulosamente elaborados, abrangendo 262 textos claros únicos em 5 domínios e 14 subdomínios, com foco em cenários sensíveis à privacidade e do mundo real que exigem criptografia. Do ponto de vista criptográfico, o CipherBank incorpora 3 grandes categorias de métodos de criptografia, abrangendo 9 algoritmos distintos, desde cifras clássicas até técnicas criptográficas personalizadas. Avaliamos LLMs de última geração no CipherBank, como GPT-4o, DeepSeek-V3, e modelos focados em raciocínio de ponta, como o1 e DeepSeek-R1. Nossos resultados revelam lacunas significativas nas habilidades de raciocínio, não apenas entre LLMs de chat de propósito geral e LLMs focados em raciocínio, mas também no desempenho dos modelos atuais focados em raciocínio quando aplicados a tarefas clássicas de descriptografia criptográfica, destacando os desafios que esses modelos enfrentam ao compreender e manipular dados criptografados. Por meio de análises detalhadas e investigações de erros, fornecemos várias observações-chave que lançam luz sobre as limitações e áreas potenciais de melhoria para LLMs no raciocínio criptográfico. Essas descobertas ressaltam a necessidade de avanços contínuos nas capacidades de raciocínio dos LLMs.

7

Avaliação Comparativa do Raciocínio Matemático Multimodal com Dependência Visual Explícita
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency

Apr 24
ByZhikai Wang, Jiashuo Sun, Wenqi Zhang, Zhiqiang Hu, Xin Li, Fan Wang, Deli Zhao
13
3

Os avanços recentes em Modelos de Visão e Linguagem de Grande Escala (LVLMs, na sigla em inglês) têm aprimorado significativamente sua capacidade de integrar informações visuais e linguísticas, alcançando proficiência quase humana em tarefas como reconhecimento de objetos, geração de legendas e resposta a perguntas visuais. No entanto, os benchmarks atuais geralmente se concentram em avaliações centradas no conhecimento que avaliam a expertise em domínios específicos, muitas vezes negligenciando a capacidade essencial de raciocinar sobre elementos matemáticos fundamentais e conceitos visuais. Identificamos uma lacuna na avaliação de problemas matemáticos de nível elementar, que dependem explicitamente de elementos visuais — exigindo que os modelos discernam, integrem e raciocinem com base em múltiplas imagens, ao mesmo tempo que incorporam conhecimento de senso comum, todos aspectos cruciais para avançar em direção a capacidades mais amplas de AGI (Inteligência Artificial Geral). Para abordar essa lacuna, introduzimos o VCBENCH, um benchmark abrangente para raciocínio matemático multimodal com dependências visuais explícitas. O VCBENCH inclui 1.720 problemas em seis domínios cognitivos, apresentando 6.697 imagens (média de 3,9 por questão) para garantir o raciocínio com múltiplas imagens. Avaliamos 26 LVLMs de última geração no VCBENCH, revelando disparidades substanciais de desempenho, com até mesmo os melhores modelos incapazes de superar 50% de precisão. Nossas descobertas destacam os desafios contínuos na integração visual-matemática e sugerem caminhos para futuros avanços em LVLMs.

8

Amostragem Reduzida em Grupo com Anti-aliasing Equivariante
Group Downsampling with Equivariant Anti-aliasing

Apr 24
ByMd Ashiqur Rahman, Raymond A. Yeh
9
2

Camadas de downsampling são blocos fundamentais em arquiteturas de CNNs, que ajudam a aumentar o campo receptivo para o aprendizado de características de alto nível e reduzem a quantidade de memória/computação no modelo. Neste trabalho, estudamos a generalização da camada de downsampling uniforme para arquiteturas equivariantes a grupos, por exemplo, G-CNNs. Ou seja, nosso objetivo é realizar downsampling de sinais (mapas de características) em grupos finitos gerais com anti-aliasing. Isso envolve o seguinte: (a) Dado um grupo finito e uma taxa de downsampling, apresentamos um algoritmo para formar uma escolha adequada de subgrupo. (b) Dado um grupo e um subgrupo, estudamos a noção de limitação de banda e propomos como realizar o anti-aliasing. Notavelmente, nosso método generaliza a noção de downsampling com base na teoria clássica de amostragem. Quando o sinal está em um grupo cíclico, ou seja, periódico, nosso método recupera o downsampling padrão de um filtro passa-baixa ideal seguido por uma operação de subamostragem. Por fim, realizamos experimentos em tarefas de classificação de imagens demonstrando que a operação de downsampling proposta melhora a acurácia, preserva melhor a equivariância e reduz o tamanho do modelo quando incorporada em redes G-equivariantes.

9

MMInference: Acelerando o Pré-preenchimento para VLMs de Contexto Longo por meio de Atenção Esparsa com Permutação Consciente da Modalidade
MMInference: Accelerating Pre-filling for Long-Context VLMs via Modality-Aware Permutation Sparse Attention

Apr 22
ByYucheng Li, Huiqiang Jiang, Chengruidong Zhang, Qianhui Wu, Xufang Luo, Surin Ahn, Amir H. Abdi, Dongsheng Li, Jianfeng Gao, Yuqing Yang, Lili Qiu
9
2

A integração de capacidades de contexto longo com compreensão visual desbloqueia um potencial sem precedentes para Modelos de Linguagem Visual (VLMs). No entanto, a complexidade quadrática da atenção durante a fase de pré-preenchimento continua sendo um obstáculo significativo para a implantação no mundo real. Para superar essa limitação, introduzimos o MMInference (Multimodality Million tokens Inference), um método dinâmico de atenção esparsa que acelera o estágio de pré-preenchimento para entradas multimodais de contexto longo. Primeiro, nossa análise revela que a localidade temporal e espacial da entrada de vídeo leva a um padrão esparso único, o padrão Grid. Simultaneamente, os VLMs exibem distribuições esparsas marcadamente diferentes entre as diferentes modalidades. Introduzimos um método baseado em permutação para aproveitar o padrão Grid único e lidar com problemas de fronteira de modalidade. Ao buscar offline os padrões esparsos ótimos para cada cabeça, o MMInference constrói a distribuição esparsa dinamicamente com base na entrada. Também fornecemos kernels GPU otimizados para cálculos esparsos eficientes. Notavelmente, o MMInference se integra perfeitamente aos pipelines existentes de VLMs sem qualquer modificação ou ajuste fino do modelo. Experimentos em benchmarks multimodais—incluindo Video QA, Captioning, VisionNIAH e Mixed-Modality NIAH—com VLMs de contexto longo de última geração (LongVila, LlavaVideo, VideoChat-Flash, Qwen2.5-VL) mostram que o MMInference acelera o estágio de pré-preenchimento em até 8,3x em 1M de tokens, mantendo a precisão. Nosso código está disponível em https://aka.ms/MMInference.

10

NORA: Um Modelo Pequeno, de Código Aberto e Generalista de Visão, Linguagem e Ação para Tarefas Embarcadas
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks

Apr 28
ByChia-Yu Hung, Qi Sun, Pengfei Hong, Amir Zadeh, Chuan Li, U-Xuan Tan, Navonil Majumder, Soujanya Poria
7
2

Os modelos existentes de Visão-Linguagem-Ação (VLA) têm demonstrado desempenho promissor em cenários de zero-shot, exibindo capacidades impressionantes de execução de tarefas e raciocínio. No entanto, um desafio significativo surge das limitações da codificação visual, que pode resultar em falhas durante tarefas como a preensão de objetos. Além disso, esses modelos geralmente sofrem com um alto custo computacional devido ao seu grande tamanho, frequentemente ultrapassando 7 bilhões de parâmetros. Embora esses modelos se destaquem em raciocínio e planejamento de tarefas, o substancial custo computacional que eles acarretam os torna impraticáveis para ambientes robóticos em tempo real, onde velocidade e eficiência são primordiais. Para abordar as limitações dos modelos VLA existentes, propomos o NORA, um modelo de 3 bilhões de parâmetros projetado para reduzir o custo computacional enquanto mantém um forte desempenho em tarefas. O NORA adota o modelo multimodal Qwen-2.5-VL-3B como sua base, aproveitando sua compreensão visual-semântica superior para aprimorar o raciocínio visual e a fundamentação de ações. Além disso, nosso modelo é treinado em 970 mil demonstrações robóticas do mundo real e equipado com o tokenizador FAST+ para a geração eficiente de sequências de ações. Resultados experimentais demonstram que o NORA supera os modelos VLA de grande escala existentes, alcançando um melhor desempenho em tarefas com um custo computacional significativamente reduzido, tornando-o uma solução mais prática para a autonomia robótica em tempo real.

11

TrustGeoGen: Motor de Dados Escalável e Formalmente Verificado para Resolução Confiável de Problemas Geométricos Multimodais
TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving

Apr 22
ByDaocheng Fu, Zijun Chen, Renqiu Xia, Qi Liu, Yuan Feng, Hongbin Zhou, Renrui Zhang, Shiyang Feng, Peng Gao, Junchi Yan, Botian Shi, Bo Zhang, Yu Qiao
6
2

A resolução de problemas geométricos matemáticos (GPS) frequentemente requer a integração eficaz de informações multimodais e coerência lógica verificável. Apesar do rápido desenvolvimento de modelos de linguagem de grande escala na resolução geral de problemas, questões metodológicas e de benchmarks permanecem sem solução, especialmente considerando que os benchmarks sintéticos de GPS existentes muitas vezes não são autoverificados e contêm ruídos e informações contraditórias devido à ilusão dos LLMs. Neste artigo, propomos um mecanismo de dados escalável chamado TrustGeoGen para geração de problemas, com verificação formal para fornecer um benchmark fundamentado, que acreditamos estabelecer as bases para o desenvolvimento futuro de métodos para GPS. O mecanismo sintetiza dados geométricos por meio de quatro inovações principais: 1) geração alinhada multimodal de diagramas, descrições textuais e soluções passo a passo; 2) verificação formal garantindo caminhos de raciocínio compatíveis com as regras; 3) um mecanismo de bootstrapping que permite a escalada de complexidade por meio de geração recursiva de estados; e 4) nossos algoritmos da série GeoExplore, que produzem simultaneamente variantes de múltiplas soluções e traços de retrocesso autorreflexivos. Por meio da verificação lógica formal, o TrustGeoGen produz o conjunto de dados GeoTrust-200K com integridade modal garantida, juntamente com o conjunto de testes GeoTrust-test. Experimentos revelam que os modelos state-of-the-art alcançam apenas 49,17% de precisão no GeoTrust-test, demonstrando sua rigorosidade de avaliação. Crucialmente, modelos treinados no GeoTrust alcançam generalização OOD no GeoQA, reduzindo significativamente as inconsistências lógicas em relação às pseudoanotações geradas pelo OpenAI-o1. Nosso código está disponível em https://github.com/Alpha-Innovator/TrustGeoGen.

12

Estrutura Versátil para Geração de Músicas com Controle Baseado em Prompts
Versatile Framework for Song Generation with Prompt-based Control

Apr 27
ByYu Zhang, Wenxiang Guo, Changhao Pan, Zhiyuan Zhu, Ruiqi Li, Jingyu Lu, Rongjie Huang, Ruiyuan Zhang, Zhiqing Hong, Ziyue Jiang, Zhou Zhao
6
2

A geração de músicas concentra-se na produção de canções de alta qualidade e controláveis com base em diversos prompts. No entanto, os métodos existentes enfrentam dificuldades para gerar vocais e acompanhamentos com controle baseado em prompts e alinhamento adequado. Além disso, eles não conseguem suportar diversas tarefas. Para resolver esses desafios, apresentamos o VersBand, um framework de geração de músicas multitarefa para sintetizar canções de alta qualidade e alinhadas com controle baseado em prompts. O VersBand é composto pelos seguintes modelos principais: 1) O VocalBand, um modelo desacoplado, utiliza o método de correspondência de fluxo (flow-matching) para gerar estilos de canto, afinações e mel-espectrogramas, permitindo a geração rápida e de alta qualidade de vocais com controle de estilo. 2) O AccompBand, um modelo baseado em fluxo e transformador, incorpora o Band-MOE, selecionando especialistas adequados para melhorar a qualidade, o alinhamento e o controle. Esse modelo permite a geração de acompanhamentos controláveis e de alta qualidade alinhados com os vocais. 3) Dois modelos de geração, o LyricBand para letras e o MelodyBand para melodias, contribuem para o sistema abrangente de geração de músicas multitarefa, permitindo um controle extensivo com base em múltiplos prompts. Os resultados experimentais demonstram que o VersBand supera os modelos de referência em várias tarefas de geração de músicas, utilizando métricas objetivas e subjetivas. Amostras de áudio estão disponíveis em https://VersBand.github.io.

13

ICL CIPHERS: Quantificando o "Aprendizado" na Aprendizagem em Contexto por meio de Cifras de Substituição
ICL CIPHERS: Quantifying "Learning'' in In-Context Learning via Substitution Ciphers

Apr 28
ByZhouxiang Fang, Aayush Mishra, Muhan Gao, Anqi Liu, Daniel Khashabi
5
2

Trabalhos recentes sugerem que o Aprendizado em Contexto (ICL, na sigla em inglês) opera em modos duais, ou seja, recuperação de tarefas (lembrar padrões aprendidos durante o pré-treinamento) e aprendizado de tarefas ("aprendizado" durante a inferência a partir de demonstrações). No entanto, separar esses dois modos continua sendo um objetivo desafiador. Apresentamos o ICL CIPHERS, uma classe de reformulações de tarefas baseadas em cifras de substituição emprestadas da criptografia clássica. Nessa abordagem, um subconjunto de tokens nas entradas em contexto é substituído por outros tokens (irrelevantes), tornando as frases em inglês menos compreensíveis ao olho humano. No entanto, por design, há um padrão latente e fixo para essa substituição, tornando-a reversível. Essa cifra bijetiva (reversível) garante que a tarefa permaneça bem definida em algum sentido abstrato, apesar das transformações. É uma questão curiosa saber se os LLMs (Modelos de Linguagem de Grande Escala) podem resolver o ICL CIPHERS com um mapeamento BIJETIVO, o que requer decifrar a cifra latente. Mostramos que os LLMs são melhores em resolver o ICL CIPHERS com mapeamentos BIJETIVOS do que a linha de base NÃO-BIJETIVA (irreversível), fornecendo uma abordagem nova para quantificar o "aprendizado" no ICL. Embora essa diferença seja pequena, ela é consistente em quatro conjuntos de dados e seis modelos. Por fim, examinamos as representações internas dos LLMs e identificamos evidências de sua capacidade de decodificar as entradas cifradas.

14

ChiseLLM: Liberando o Poder de LLMs de Raciocínio para o Desenvolvimento Ágil de Hardware com Chisel
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development

Apr 27
ByBowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang
4
2

A crescente demanda por Arquiteturas Específicas de Domínio (DSA) impulsionou o desenvolvimento da Metodologia Ágil de Desenvolvimento de Hardware (AHDM). Linguagens de Construção de Hardware (HCL), como Chisel, oferecem recursos de abstração de alto nível, tornando-as ideais para AHDM baseada em HCL. Embora os Modelos de Linguagem de Grande Escala (LLMs) se destaquem em tarefas de geração de código, eles ainda enfrentam desafios com a geração de Chisel, especialmente em relação à correção sintática e à variabilidade de design. Modelos de raciocínio recentes melhoraram significativamente as capacidades de geração de código por meio de técnicas de escalonamento em tempo de teste. No entanto, descobrimos que modelos de raciocínio sem adaptação de domínio não trazem benefícios substanciais para tarefas de geração de código em Chisel. Este artigo apresenta o ChiseLLM, uma solução que inclui processamento e transformação de dados, síntese de traços de raciocínio guiados por prompts e treinamento de modelos adaptados ao domínio. Construímos conjuntos de dados de alta qualidade a partir de recursos públicos de código RTL e guiamos o modelo a adotar padrões de pensamento estruturados por meio de métodos de aprimoramento de prompts. Experimentos demonstram que nossos modelos ChiseLLM-7B e ChiseLLM-32B melhoraram a correção sintática em 18,85% e 26,32%, respectivamente, em relação aos modelos base, enquanto aumentaram a capacidade de variabilidade de design em 47,58% em comparação com modelos de raciocínio de linha de base. Nossos conjuntos de dados e modelos estão publicamente disponíveis, fornecendo modelos de alto desempenho e custo-efetivos para AHDM baseada em HCL, além de oferecer uma linha de base eficaz para pesquisas futuras. Repositório Github: https://github.com/observerw/ChiseLLM

Apr 28
Apr 29
Apr 30