HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

19 papers found

Zero Absoluto: Raciocínio com Autoaprendizagem Reforçada sem Dados
Absolute Zero: Reinforced Self-play Reasoning with Zero Data

May 6

ByAndrew Zhao, Yiran Wu, Yang Yue, Tong Wu, Quentin Xu, Yang Yue, Matthieu Lin, Shenzhi Wang, Qingyun Wu, Zilong Zheng, Gao Huang

189

O aprendizado por reforço com recompensas verificáveis (RLVR) tem mostrado potencial para aprimorar as capacidades de raciocínio de grandes modelos de linguagem ao aprender diretamente com recompensas baseadas em resultados. Trabalhos recentes de RLVR que operam no cenário zero evitam supervisão na rotulagem do processo de raciocínio, mas ainda dependem de coleções manualmente curadas de perguntas e respostas para treinamento. A escassez de exemplos de alta qualidade produzidos por humanos levanta preocupações sobre a escalabilidade a longo prazo da dependência da supervisão humana, um desafio já evidente no domínio do pré-treinamento de modelos de linguagem. Além disso, em um futuro hipotético onde a IA supera a inteligência humana, tarefas fornecidas por humanos podem oferecer um potencial de aprendizado limitado para um sistema superinteligente. Para abordar essas preocupações, propomos um novo paradigma de RLVR chamado Absolute Zero, no qual um único modelo aprende a propor tarefas que maximizam seu próprio progresso de aprendizado e melhora o raciocínio ao resolvê-las, sem depender de nenhum dado externo. Sob esse paradigma, introduzimos o Absolute Zero Reasoner (AZR), um sistema que auto-evolui seu currículo de treinamento e capacidade de raciocínio ao usar um executor de código para validar tarefas de raciocínio em código propostas e verificar respostas, servindo como uma fonte unificada de recompensa verificável para guiar o aprendizado aberto, porém fundamentado. Apesar de ser treinado inteiramente sem dados externos, o AZR alcança desempenho geral de ponta em tarefas de raciocínio matemático e de codificação, superando modelos existentes no cenário zero que dependem de dezenas de milhares de exemplos humanos curados no domínio. Além disso, demonstramos que o AZR pode ser efetivamente aplicado em diferentes escalas de modelos e é compatível com várias classes de modelos.

Modelo Unificado de Recompensa de Cadeia de Pensamento Multimodal por meio de Ajuste Fino por Reforço
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6

ByYibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang

Avanços recentes em Modelos de Recompensa (RMs) multimodais têm mostrado um potencial significativo para fornecer sinais de recompensa que alinham modelos de visão com as preferências humanas. No entanto, os RMs atuais geralmente estão restritos a fornecer respostas diretas ou a envolver-se em processos de raciocínio superficial com profundidade limitada, frequentemente resultando em sinais de recompensa imprecisos. Nós propomos que a incorporação de cadeias explícitas de pensamento (CoT) no processo de raciocínio de recompensa pode fortalecer significativamente sua confiabilidade e robustez. Além disso, acreditamos que, uma vez que os RMs internalizem o raciocínio CoT, a precisão de suas respostas diretas também pode ser melhorada por meio de capacidades de raciocínio implícito. Para tanto, este artigo propõe o UnifiedReward-Think, o primeiro modelo de recompensa multimodal unificado baseado em CoT, capaz de realizar raciocínio multidimensional e em cadeia longa passo a passo para tarefas de recompensa tanto de compreensão quanto de geração visual. Especificamente, adotamos uma abordagem de ajuste fino por reforço orientada por exploração para eliciar e incentivar a capacidade latente de raciocínio complexo do modelo: (1) Primeiro, usamos uma pequena quantidade de dados de preferência de geração de imagens para destilar o processo de raciocínio do GPT-4o, que é então utilizado para o início frio do modelo, permitindo que ele aprenda o formato e a estrutura do raciocínio CoT. (2) Em seguida, ao aproveitar o conhecimento prévio e as capacidades de generalização do modelo, preparamos um grande volume de dados de preferência multimodal unificada para eliciar o processo de raciocínio do modelo em várias tarefas visuais. Durante essa fase, as saídas de raciocínio corretas são retidas para amostragem por rejeição, refinando o modelo (3), enquanto as amostras previstas incorretas são finalmente usadas para o ajuste fino por reforço baseado em Otimização de Política Relativa em Grupo (GRPO), permitindo que o modelo explore diversos caminhos de raciocínio e otimize para soluções corretas e robustas. Experimentos extensivos em várias tarefas de recompensa visual demonstram a superioridade do nosso modelo.

RADLADS: Distilação Rápida de Atenção para Decodificadores de Atenção Linear em Escala
RADLADS: Rapid Attention Distillation to Linear Attention Decoders at Scale

May 5

ByDaniel Goldstein, Eric Alcaide, Janna Lu, Eugene Cheah

Apresentamos o Rapid Attention Distillation to Linear Attention Decoders at Scale (RADLADS), um protocolo para converter rapidamente transformadores com atenção softmax em modelos de decodificadores com atenção linear, juntamente com duas novas arquiteturas variantes do RWKV e modelos convertidos a partir dos populares modelos de código aberto Qwen2.5 nos tamanhos 7B, 32B e 72B. Nosso processo de conversão requer apenas 350-700 milhões de tokens, menos de 0,005% da quantidade de tokens usada para treinar os modelos originais (professores). A conversão para nosso modelo de atenção linear de 72B custa menos de US$ 2.000 pelos preços atuais, mas a qualidade na inferência permanece próxima à do transformador original. Esses modelos alcançam desempenho de ponta em um conjunto de benchmarks padrão para modelos de atenção linear de seu tamanho. Disponibilizamos todos os nossos modelos no HuggingFace sob a licença Apache 2.0, com exceção dos modelos de 72B, que também são regidos pelo Acordo de Licença Qwen. Modelos em https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102 Código de treinamento em https://github.com/recursal/RADLADS-paper

RetroInfer: Uma Abordagem de Armazenamento Vetorial para Inferência Escalável de LLM com Contexto Longo
RetroInfer: A Vector-Storage Approach for Scalable Long-Context LLM Inference

May 5

ByYaoqi Chen, Jinkai Zhang, Baotong Lu, Qianxi Zhang, Chengruidong Zhang, Jingjia Luo, Di Liu, Huiqiang Jiang, Qi Chen, Jing Liu, Bailu Ding, Xiao Yan, Jiawei Jiang, Chen Chen, Mingxing Zhang, Yuqing Yang, Fan Yang, Mao Yang

O aumento dos comprimentos de contexto em grandes modelos de linguagem (LLMs) apresenta desafios significativos para a inferência eficiente, principalmente devido às limitações de memória e largura de banda da GPU. Apresentamos o RetroInfer, um sistema inovador que reconceitualiza o cache de chave-valor (KV) como um sistema de armazenamento de vetores que explora a esparsidade inerente da atenção para acelerar a inferência de LLMs com contextos longos. No seu núcleo está o índice wave, um índice vetorial consciente da atenção (Attention-aWare VEctor index) que permite a recuperação eficiente e precisa de tokens críticos por meio de técnicas como aproximação tripartida da atenção, estimação de atenção com limite de precisão e clustering segmentado. Complementando isso está o buffer wave, que coordena o posicionamento do cache KV e sobrepõe computação e transferência de dados entre GPU e CPU para manter uma alta taxa de transferência. Diferente de métodos baseados em esparsidade anteriores que lutam com a seleção de tokens e a coordenação de hardware, o RetroInfer oferece desempenho robusto sem comprometer a precisão do modelo. Experimentos em benchmarks de contexto longo mostram uma aceleração de até 4,5X em relação à atenção completa dentro dos limites de memória da GPU e até 10,5X em relação às linhas de base de atenção esparsa quando o cache KV é estendido para a memória da CPU, tudo isso mantendo a precisão no nível da atenção completa.

FlexiAct: Rumo ao Controle Flexível de Ações em Cenários Heterogêneos
FlexiAct: Towards Flexible Action Control in Heterogeneous Scenarios

May 6

ByShiyi Zhang, Junhao Zhuang, Zhaoyang Zhang, Ying Shan, Yansong Tang

A personalização de ações envolve a geração de vídeos em que o sujeito realiza ações ditadas por sinais de controle de entrada. Os métodos atuais utilizam personalização guiada por pose ou por movimento global, mas são limitados por restrições rigorosas na estrutura espacial, como layout, esqueleto e consistência de ponto de vista, reduzindo a adaptabilidade em diversos sujeitos e cenários. Para superar essas limitações, propomos o FlexiAct, que transfere ações de um vídeo de referência para uma imagem alvo arbitrária. Diferente dos métodos existentes, o FlexiAct permite variações no layout, ponto de vista e estrutura esquelética entre o sujeito do vídeo de referência e a imagem alvo, mantendo a consistência de identidade. Para alcançar isso, é necessário controle preciso da ação, adaptação da estrutura espacial e preservação da consistência. Para tanto, introduzimos o RefAdapter, um adaptador leve condicionado por imagem que se destaca na adaptação espacial e preservação da consistência, superando métodos existentes no equilíbrio entre consistência de aparência e flexibilidade estrutural. Além disso, com base em nossas observações, o processo de remoção de ruído exibe níveis variados de atenção ao movimento (baixa frequência) e detalhes de aparência (alta frequência) em diferentes intervalos de tempo. Assim, propomos o FAE (Extração de Ação Consciente de Frequência), que, ao contrário dos métodos existentes que dependem de arquiteturas espaço-temporais separadas, realiza diretamente a extração de ação durante o processo de remoção de ruído. Experimentos demonstram que nosso método transfere efetivamente ações para sujeitos com layouts, esqueletos e pontos de vista diversos. Disponibilizamos nosso código e pesos de modelo para apoiar pesquisas futuras em https://shiyi-zh0408.github.io/projectpages/FlexiAct/.

Um Estudo Empírico sobre a Quantização do Qwen3
An Empirical Study of Qwen3 Quantization

May 4

ByXingyu Zheng, Yuye Li, Haoran Chu, Yue Feng, Xudong Ma, Jie Luo, Jinyang Guo, Haotong Qin, Michele Magno, Xianglong Liu

A série Qwen emergiu como uma família líder de Modelos de Linguagem de Grande Escala (LLMs) de código aberto, demonstrando capacidades notáveis em tarefas de compreensão de linguagem natural. Com o recente lançamento do Qwen3, que exibe desempenho superior em diversos benchmarks, há um interesse crescente em implantar esses modelos de forma eficiente em ambientes com recursos limitados. A quantização de baixo bit apresenta uma solução promissora, mas seu impacto no desempenho do Qwen3 ainda é pouco explorado. Este estudo realiza uma avaliação sistemática da robustez do Qwen3 sob várias configurações de quantização, com o objetivo de revelar tanto oportunidades quanto desafios na compressão desse modelo de última geração. Avaliamos rigorosamente 5 técnicas clássicas de quantização pós-treinamento aplicadas ao Qwen3, abrangendo bit-widths de 1 a 8 bits, e avaliamos sua eficácia em múltiplos conjuntos de dados. Nossos resultados revelam que, embora o Qwen3 mantenha um desempenho competitivo em bit-widths moderados, ele sofre uma degradação significativa em tarefas linguísticas sob precisão ultrabaixa, destacando os desafios persistentes na compressão de LLMs. Esses resultados enfatizam a necessidade de mais pesquisas para mitigar a perda de desempenho em cenários de quantização extrema. Antecipamos que esta análise empírica fornecerá insights acionáveis para avançar os métodos de quantização adaptados ao Qwen3 e futuros LLMs, aprimorando sua praticidade sem comprometer a precisão. Nosso projeto está disponível em https://github.com/Efficient-ML/Qwen3-Quantization e https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b.

Sistema Multiagente para Compreensão Abrangente de Futebol
Multi-Agent System for Comprehensive Soccer Understanding

May 6

ByJiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie

Os recentes avanços na compreensão de futebol impulsionada por IA têm demonstrado progresso rápido, mas as pesquisas existentes se concentram predominantemente em tarefas isoladas ou restritas. Para preencher essa lacuna, propomos um framework abrangente para a compreensão holística do futebol. Especificamente, fazemos as seguintes contribuições neste artigo: (i) construímos o SoccerWiki, a primeira base de conhecimento multimodal em larga escala sobre futebol, integrando conhecimento rico do domínio sobre jogadores, times, árbitros e locais para permitir raciocínio baseado em conhecimento; (ii) apresentamos o SoccerBench, o maior e mais abrangente benchmark específico para futebol, contendo cerca de 10 mil pares de perguntas e respostas de múltipla escolha padronizados e multimodais (texto, imagem, vídeo) em 13 tarefas distintas de compreensão, curados por meio de pipelines automatizados e verificação manual; (iii) introduzimos o SoccerAgent, um sistema multiagente inovador que decompõe questões complexas de futebol por meio de raciocínio colaborativo, aproveitando a expertise do domínio do SoccerWiki e alcançando desempenho robusto; (iv) avaliações extensivas e análises ablativas que comparam os MLLMs (Modelos Multimodais de Linguagem) de última geração no SoccerBench, destacando a superioridade do nosso sistema agencial proposto. Todos os dados e códigos estão disponíveis publicamente em: https://jyrao.github.io/SoccerAgent/.

Decodificação de Objetivos de Busca de Informação Aberta a partir de Movimentos Oculares na Leitura
Decoding Open-Ended Information Seeking Goals from Eye Movements in Reading

May 4

ByCfir Avraham Hadar, Omer Shubi, Yoav Meiri, Yevgeni Berzak

Ao ler, frequentemente buscamos informações específicas em um texto que nos interessam. Por exemplo, você pode estar lendo este artigo porque está curioso sobre LLMs para movimentos oculares na leitura, o design experimental, ou talvez você só se importe com a pergunta "mas isso funciona?". De forma mais ampla, no dia a dia, as pessoas abordam textos com uma variedade de objetivos específicos que orientam seu comportamento de leitura. Neste trabalho, perguntamos, pela primeira vez, se objetivos de leitura abertos podem ser decodificados automaticamente a partir dos movimentos oculares durante a leitura. Para abordar essa questão, introduzimos tarefas de classificação e reconstrução de objetivos, juntamente com frameworks de avaliação, e utilizamos dados de rastreamento ocular em larga escala para leitura em inglês, com centenas de tarefas de busca de informações específicas do texto. Desenvolvemos e comparamos vários LLMs multimodais discriminativos e generativos que combinam movimentos oculares e texto para classificação e reconstrução de objetivos. Nossos experimentos mostram um sucesso considerável em ambas as tarefas, sugerindo que LLMs podem extrair informações valiosas sobre os objetivos específicos dos leitores a partir dos movimentos oculares.

HoloTime: Domando Modelos de Difusão de Vídeo para Geração de Cenas Panorâmicas 4D
HoloTime: Taming Video Diffusion Models for Panoramic 4D Scene Generation

Apr 30

ByHaiyang Zhou, Wangbo Yu, Jiawen Guan, Xinhua Cheng, Yonghong Tian, Li Yuan

O rápido avanço dos modelos de difusão promete revolucionar a aplicação das tecnologias de VR e AR, que normalmente exigem ativos 4D em nível de cena para a experiência do usuário. No entanto, os modelos de difusão existentes concentram-se predominantemente na modelagem de cenas 3D estáticas ou na dinâmica em nível de objeto, limitando sua capacidade de fornecer experiências verdadeiramente imersivas. Para resolver esse problema, propomos o HoloTime, um framework que integra modelos de difusão de vídeo para gerar vídeos panorâmicos a partir de um único prompt ou imagem de referência, juntamente com um método de reconstrução de cena 4D em 360 graus que transforma de forma contínua o vídeo panorâmico gerado em ativos 4D, permitindo uma experiência 4D totalmente imersiva para os usuários. Especificamente, para adaptar os modelos de difusão de vídeo à geração de vídeos panorâmicos de alta fidelidade, introduzimos o conjunto de dados 360World, a primeira coleção abrangente de vídeos panorâmicos adequados para tarefas de reconstrução de cenas 4D. Com esse conjunto de dados curado, propomos o Panoramic Animator, um modelo de difusão de imagem para vídeo em dois estágios que pode converter imagens panorâmicas em vídeos panorâmicos de alta qualidade. Em seguida, apresentamos a Reconstrução Espaço-Temporal Panorâmica, que utiliza um método de estimativa de profundidade espaço-temporal para transformar os vídeos panorâmicos gerados em nuvens de pontos 4D, permitindo a otimização de uma representação holística de 4D Gaussian Splatting para reconstruir cenas 4D espacial e temporalmente consistentes. Para validar a eficácia do nosso método, realizamos uma análise comparativa com abordagens existentes, revelando sua superioridade tanto na geração de vídeos panorâmicos quanto na reconstrução de cenas 4D. Isso demonstra a capacidade do nosso método de criar ambientes imersivos mais envolventes e realistas, aprimorando assim as experiências dos usuários em aplicações de VR e AR.

SWE-smith: Escalonamento de Dados para Agentes de Engenharia de Software
SWE-smith: Scaling Data for Software Engineering Agents

Apr 30

ByJohn Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang

Apesar dos avanços recentes em Modelos de Linguagem (LMs) para engenharia de software, a coleta de dados de treinamento continua sendo um desafio significativo. Os conjuntos de dados existentes são pequenos, com no máximo milhares de instâncias de treinamento provenientes de 11 ou menos repositórios do GitHub. Os procedimentos para curar esses conjuntos de dados são frequentemente complexos, exigindo centenas de horas de trabalho humano; além disso, os ambientes de execução associados ocupam vários terabytes de armazenamento, limitando severamente sua escalabilidade e usabilidade. Para abordar esse desafio, introduzimos o SWE-smith, um pipeline inovador para gerar dados de treinamento em engenharia de software em escala. Dado qualquer código base em Python, o SWE-smith constrói um ambiente de execução correspondente e, em seguida, sintetiza automaticamente centenas a milhares de instâncias de tarefas que quebram os testes existentes no código base. Usando o SWE-smith, criamos um conjunto de dados de 50 mil instâncias provenientes de 128 repositórios do GitHub, uma ordem de magnitude maior do que todos os trabalhos anteriores. Treinamos o SWE-agent-LM-32B, alcançando uma taxa de resolução de 40,2% Pass@1 no benchmark SWE-bench Verified, o estado da arte entre os modelos de código aberto. Disponibilizamos o SWE-smith (procedimento de coleta, instâncias de tarefas, trajetórias, modelos) como código aberto para reduzir a barreira de entrada para pesquisas em sistemas de LMs para engenharia de software automatizada. Todos os recursos estão disponíveis em https://swesmith.com.

Interpretabilidade Mecanicista Geoespacial de Modelos de Linguagem de Grande Escala
Geospatial Mechanistic Interpretability of Large Language Models

May 6

ByStef De Sabbata, Stefano Mizzaro, Kevin Roitero

Modelos de Linguagem de Grande Escala (LLMs) demonstraram capacidades sem precedentes em diversas tarefas de processamento de linguagem natural. Sua capacidade de processar e gerar texto e código viáveis os tornou onipresentes em muitos campos, enquanto sua implantação como bases de conhecimento e ferramentas de "raciocínio" continua sendo uma área de pesquisa em andamento. Na geografia, um crescente corpo de literatura tem se concentrado em avaliar o conhecimento geográfico dos LLMs e sua capacidade de realizar raciocínio espacial. No entanto, ainda se sabe muito pouco sobre o funcionamento interno desses modelos, especialmente sobre como eles processam informações geográficas. Neste capítulo, estabelecemos uma nova estrutura para o estudo da interpretabilidade mecanicista geoespacial - utilizando análise espacial para engenharia reversa de como os LLMs lidam com informações geográficas. Nosso objetivo é avançar nossa compreensão das representações internas que esses modelos complexos geram ao processar informações geográficas - o que se poderia chamar de "como os LLMs pensam sobre informações geográficas", se tal frase não fosse um antropomorfismo indevido. Primeiro, delineamos o uso de sondagens para revelar estruturas internas dentro dos LLMs. Em seguida, introduzimos o campo da interpretabilidade mecanicista, discutindo a hipótese de superposição e o papel dos autoencoders esparsos na desagregação de representações internas polissêmicas dos LLMs em características mais interpretáveis e monossêmicas. Em nossos experimentos, utilizamos autocorrelação espacial para mostrar como as características obtidas para nomes de lugares exibem padrões espaciais relacionados à sua localização geográfica e, portanto, podem ser interpretadas geoespacialmente, fornecendo insights sobre como esses modelos processam informações geográficas. Concluímos discutindo como nossa estrutura pode ajudar a moldar o estudo e o uso de modelos de base na geografia.

Qual Agente Causa Falhas nas Tarefas e Quando? Sobre a Atribuição Automática de Falhas em Sistemas Multiagentes de LLM
Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems

Apr 30

ByShaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

A atribuição de falhas em sistemas multiagentes baseados em LLMs (Large Language Models) — identificando o agente e a etapa responsáveis por falhas em tarefas — fornece pistas cruciais para a depuração de sistemas, mas permanece pouco explorada e intensiva em mão de obra. Neste artigo, propomos e formulamos uma nova área de pesquisa: a atribuição automatizada de falhas em sistemas multiagentes baseados em LLMs. Para apoiar essa iniciativa, introduzimos o conjunto de dados Who&When, que compreende registros extensivos de falhas de 127 sistemas multiagentes baseados em LLMs, com anotações detalhadas que vinculam falhas a agentes específicos e etapas decisivas de erro. Utilizando o Who&When, desenvolvemos e avaliamos três métodos automatizados de atribuição de falhas, resumindo seus respectivos prós e contras. O melhor método alcança 53,5% de precisão na identificação de agentes responsáveis por falhas, mas apenas 14,2% na identificação de etapas de falha, com alguns métodos apresentando desempenho abaixo do aleatório. Mesmo modelos de raciocínio de última geração, como o OpenAI o1 e o DeepSeek R1, não conseguem atingir usabilidade prática. Esses resultados destacam a complexidade da tarefa e a necessidade de mais pesquisas nessa área. O código e o conjunto de dados estão disponíveis em https://github.com/mingyin1/Agents_Failure_Attribution.

VITA-Audio: Geração Rápida de Tokens Intercalados de Modalidade Cruzada para Modelos de Linguagem de Fala de Grande Escala Eficientes
VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model

May 6

ByZuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

Com a crescente demanda por interação natural entre humanos e computadores, os sistemas baseados em fala recebem atenção cada vez maior, já que a fala é uma das formas mais comuns de comunicação diária. No entanto, os modelos de fala existentes ainda enfrentam alta latência ao gerar o primeiro token de áudio durante o streaming, o que representa um gargalo significativo para a implantação. Para resolver esse problema, propomos o VITA-Audio, um modelo de fala de grande escala de ponta a ponta com geração rápida de tokens de áudio-texto. Especificamente, introduzimos um módulo leve de Predição de Múltiplos Tokens Transmodais (MCTP, na sigla em inglês) que gera eficientemente vários tokens de áudio em uma única passagem direta do modelo, o que não apenas acelera a inferência, mas também reduz significativamente a latência para gerar o primeiro áudio em cenários de streaming. Além disso, uma estratégia de treinamento progressivo em quatro etapas é explorada para alcançar a aceleração do modelo com perda mínima de qualidade de fala. Até onde sabemos, o VITA-Audio é o primeiro modelo de linguagem multimodal de grande escala capaz de gerar saída de áudio durante a primeira passagem direta, permitindo capacidades de conversação em tempo real com latência mínima. O VITA-Audio é totalmente reproduzível e é treinado apenas com dados de código aberto. Os resultados experimentais demonstram que nosso modelo alcança uma aceleração de inferência de 3 a 5 vezes na escala de 7 bilhões de parâmetros, mas também supera significativamente modelos de código aberto de tamanho similar em vários benchmarks para tarefas de reconhecimento automático de fala (ASR), conversão de texto em fala (TTS) e resposta a perguntas faladas (SQA).

Scenethesis: Um Framework Agente de Linguagem e Visão para Geração de Cenas 3D
Scenethesis: A Language and Vision Agentic Framework for 3D Scene Generation

May 5

ByLu Ling, Chen-Hsuan Lin, Tsung-Yi Lin, Yifan Ding, Yu Zeng, Yichen Sheng, Yunhao Ge, Ming-Yu Liu, Aniket Bera, Zhaoshuo Li

A síntese de cenas 3D interativas a partir de texto é essencial para jogos, realidade virtual e IA incorporada. No entanto, os métodos existentes enfrentam vários desafios. Abordagens baseadas em aprendizado dependem de conjuntos de dados internos em pequena escala, limitando a diversidade de cenas e a complexidade do layout. Embora os grandes modelos de linguagem (LLMs) possam aproveitar conhecimentos diversos do domínio textual, eles lutam com o realismo espacial, frequentemente produzindo posicionamentos de objetos não naturais que não respeitam o senso comum. Nossa principal percepção é que a percepção visual pode preencher essa lacuna, fornecendo orientação espacial realista que os LLMs não possuem. Para isso, introduzimos o Scenethesis, uma estrutura agentiva sem necessidade de treinamento que integra o planejamento de cenas baseado em LLM com o refinamento de layout guiado por visão. Dado um prompt de texto, o Scenethesis primeiro emprega um LLM para esboçar um layout grosseiro. Um módulo de visão então o refina, gerando uma orientação de imagem e extraindo a estrutura da cena para capturar as relações entre objetos. Em seguida, um módulo de otimização aplica iterativamente o alinhamento preciso de poses e a plausibilidade física, prevenindo artefatos como penetração de objetos e instabilidade. Por fim, um módulo de julgamento verifica a coerência espacial. Experimentos abrangentes mostram que o Scenethesis gera cenas 3D interativas diversas, realistas e fisicamente plausíveis, tornando-o valioso para a criação de conteúdo virtual, ambientes de simulação e pesquisa em IA incorporada.

InfoVids: Reimaginando a Experiência do Espectador com Relações Alternativas entre Visualização e Apresentador
InfoVids: Reimagining the Viewer Experience with Alternative Visualization-Presenter Relationships

May 6

ByJi Won Chung, Tongyu Zhou, Ivy Chen, Kevin Hsu, Ryan A. Rossi, Alexa Siu, Shunan Guo, Franck Dernoncourt, James Tompkin, Jeff Huang

As apresentações tradicionais de dados geralmente separam o apresentador e a visualização em dois espaços distintos - o mundo 3D e uma tela 2D - reforçando narrativas centradas na visualização. Para criar uma experiência de visualização mais centrada no ser humano, estabelecemos uma relação mais equilibrada entre a visualização e o apresentador por meio de nossos InfoVids. Esses vídeos informacionais inspirados em infográficos são elaborados para redefinir as relações entre o apresentador e as visualizações. Ao projetar InfoVids, exploramos como o uso de layout, forma e interações afeta a experiência do espectador. Comparamos InfoVids com seus equivalentes em slides 2D de base em 9 métricas com 30 participantes e fornecemos insights práticos e de longo prazo a partir de uma perspectiva autobiográfica. Nossas análises de métodos mistos revelam que esse paradigma reduziu a divisão de atenção do espectador, deslocou o foco da visualização para o apresentador e resultou em performances de dados mais interativas, naturais e envolventes com o uso do corpo inteiro para os espectadores. Por fim, os InfoVids ajudaram os espectadores a reimaginar as dinâmicas tradicionais entre o apresentador e as visualizações.

Ensinando Modelos a Compreender (mas não Gerar) Dados de Alto Risco
Teaching Models to Understand (but not Generate) High-risk Data

May 5

ByRyan Wang, Matthew Finlayson, Luca Soldaini, Swabha Swayamdipta, Robin Jia

Desenvolvedores de modelos de linguagem normalmente filtram conteúdo de alto risco — como texto tóxico ou protegido por direitos autorais — de seus dados de pré-treinamento para evitar que os modelos gerem saídas semelhantes. No entanto, remover esses dados por completo limita a capacidade dos modelos de reconhecer e responder adequadamente a conteúdo prejudicial ou sensível. Neste artigo, introduzimos o Selective Loss to Understand but Not Generate (SLUNG), um paradigma de pré-treinamento por meio do qual os modelos aprendem a entender dados de alto risco sem aprender a gerá-los. Em vez de aplicar uniformemente a perda de previsão do próximo token, o SLUNG evita seletivamente incentivar a geração de tokens de alto risco, garantindo que eles permaneçam na janela de contexto do modelo. À medida que o modelo aprende a prever tokens de baixo risco que seguem os de alto risco, ele é forçado a entender o conteúdo de alto risco. Por meio de nossos experimentos, mostramos que o SLUNG melhora consistentemente a compreensão dos modelos sobre dados de alto risco (por exemplo, a capacidade de reconhecer conteúdo tóxico) sem aumentar sua geração (por exemplo, a toxicidade das respostas do modelo). No geral, nosso paradigma SLUNG permite que os modelos se beneficiem de textos de alto risco que, de outra forma, seriam filtrados.

Invocar Interfaces Apenas Quando Necessário: Invocação Adaptativa para Modelos de Linguagem de Grande Escala em Resposta a Perguntas
Invoke Interfaces Only When Needed: Adaptive Invocation for Large Language Models in Question Answering

May 5

ByJihao Zhao, Chunlai Zhou, Biao Qin

O paradigma colaborativo entre modelos de linguagem (LMs) grandes e pequenos equilibra efetivamente desempenho e custo, mas seu desafio crucial reside em identificar com precisão o momento de invocação quando alucinações surgem em LMs pequenos. Esforços anteriores de otimização concentraram-se principalmente em técnicas de pós-processamento, que eram separadas do processo de raciocínio dos LMs, resultando em altos custos computacionais e eficácia limitada. Neste artigo, propomos uma métrica prática de avaliação de invocação chamada AttenHScore, que calcula o acúmulo e a propagação de alucinações durante o processo de geração de LMs pequenos, amplificando continuamente possíveis erros de raciocínio. Ao ajustar dinamicamente o limiar de detecção, alcançamos uma invocação em tempo real mais precisa de LMs grandes. Além disso, considerando a capacidade limitada de raciocínio dos LMs pequenos, utilizamos a reorganização de conhecimento com consciência de incerteza para ajudá-los a capturar melhor informações críticas de diferentes segmentos de texto. Experimentos extensivos revelam que nosso AttenHScore supera a maioria das baselines na melhoria das capacidades de detecção de alucinações em tempo real em vários conjuntos de dados de perguntas e respostas (QA), especialmente ao lidar com consultas complexas. Além disso, nossas estratégias eliminam a necessidade de treinamento adicional de modelos e demonstram flexibilidade na adaptação a diversos LMs baseados em transformadores.

Benchmark Alpha Excel
Alpha Excel Benchmark

May 7

ByDavid Noever, Forrest McKee

Este estudo apresenta um novo benchmark para avaliar Modelos de Linguagem de Grande Escala (LLMs) utilizando desafios derivados das competições de Excel do Financial Modeling World Cup (FMWC). Introduzimos uma metodologia para converter 113 desafios existentes do FMWC em formatos JSON avaliáveis programaticamente e utilizamos esse conjunto de dados para comparar o desempenho de vários LLMs líderes. Nossos resultados demonstram variações significativas no desempenho entre diferentes categorias de desafios, com os modelos mostrando pontos fortes específicos em tarefas de reconhecimento de padrões, mas enfrentando dificuldades com raciocínio numérico complexo. O benchmark fornece uma estrutura padronizada para avaliar as capacidades dos LLMs em tarefas realistas orientadas para negócios, em vez de problemas acadêmicos abstratos. Esta pesquisa contribui para o crescente campo de benchmarking de IA ao estabelecer a proficiência entre os 1,5 bilhão de pessoas que utilizam o Microsoft Excel diariamente como uma métrica de avaliação significativa que preenche a lacuna entre benchmarks acadêmicos de IA e aplicações práticas de negócios.

Auto-SLURP: Um Conjunto de Dados de Referência para Avaliação de Estruturas Multiagente em Assistentes Pessoais Inteligentes
Auto-SLURP: A Benchmark Dataset for Evaluating Multi-Agent Frameworks in Smart Personal Assistant

Apr 25

ByLei Shen, Xiaoyu Shen

Nos últimos anos, os frameworks multiagentes impulsionados por modelos de linguagem de grande escala (LLMs) avançaram rapidamente. Apesar desse progresso, ainda há uma ausência notável de conjuntos de dados de referência especificamente projetados para avaliar seu desempenho. Para preencher essa lacuna, apresentamos o Auto-SLURP, um conjunto de dados de referência voltado para a avaliação de frameworks multiagentes baseados em LLMs no contexto de assistentes pessoais inteligentes. O Auto-SLURP estende o conjunto de dados SLURP original — inicialmente desenvolvido para tarefas de compreensão de linguagem natural — por meio da reclassificação dos dados e da integração de servidores simulados e serviços externos. Esse aprimoramento permite um pipeline de avaliação abrangente de ponta a ponta, cobrindo compreensão de linguagem, execução de tarefas e geração de respostas. Nossos experimentos demonstram que o Auto-SLURP representa um desafio significativo para os frameworks mais avançados atualmente, destacando que assistentes pessoais multiagentes verdadeiramente confiáveis e inteligentes ainda estão em desenvolvimento. O conjunto de dados e o código relacionado estão disponíveis em https://github.com/lorashen/Auto-SLURP/.

Modelo Unificado de Recompensa de Cadeia de Pensamento Multimodal por meio de Ajuste Fino por Reforço
Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning

May 6

ByYibin Wang, Zhimin Li, Yuhang Zang, Chunyu Wang, Qinglin Lu, Cheng Jin, Jiaqi Wang