Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Avanços e Desafios em Agentes Fundamentais: Da Inteligência Inspirada no Cérebro a Sistemas Evolutivos, Colaborativos e Seguros
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31

ByBang Liu, Xinfeng Li, Jiayi Zhang, Jinlin Wang, Tanjin He, Sirui Hong, Hongzhang Liu, Shaokun Zhang, Kaitao Song, Kunlun Zhu, Yuheng Cheng, Suyuchen Wang, Xiaoqiang Wang, Yuyu Luo, Haibo Jin, Peiyan Zhang, Ollie Liu, Jiaqi Chen, Huan Zhang, Zhaoyang Yu, Haochen Shi, Boyan Li, Dekun Wu, Fengwei Teng, Xiaojun Jia, Jiawei Xu, Jinyu Xiang, Yizhang Lin, Tianming Liu, Tongliang Liu, Yu Su, Huan Sun, Glen Berseth, Jianyun Nie, Ian Foster, Logan Ward, Qingyun Wu, Yu Gu, Mingchen Zhuge, Xiangru Tang, Haohan Wang, Jiaxuan You, Chi Wang, Jian Pei, Qiang Yang, Xiaoliang Qi, Chenglin Wu

301

O advento dos grandes modelos de linguagem (LLMs) catalisou uma mudança transformadora na inteligência artificial, abrindo caminho para agentes inteligentes avançados capazes de raciocínio sofisticado, percepção robusta e ação versátil em diversos domínios. À medida que esses agentes impulsionam cada vez mais a pesquisa e as aplicações práticas de IA, seu design, avaliação e melhoria contínua apresentam desafios complexos e multifacetados. Esta pesquisa oferece uma visão abrangente, enquadrando os agentes inteligentes dentro de uma arquitetura modular inspirada no cérebro que integra princípios da ciência cognitiva, neurociência e pesquisa computacional. Estruturamos nossa exploração em quatro partes interconectadas. Primeiro, mergulhamos na fundação modular dos agentes inteligentes, mapeando sistematicamente seus módulos cognitivos, perceptivos e operacionais em funcionalidades análogas do cérebro humano, e elucidando componentes centrais como memória, modelagem do mundo, processamento de recompensas e sistemas semelhantes a emoções. Segundo, discutimos mecanismos de autoaperfeiçoamento e evolução adaptativa, explorando como os agentes refinam autonomamente suas capacidades, adaptam-se a ambientes dinâmicos e alcançam aprendizado contínuo por meio de paradigmas de otimização automatizada, incluindo estratégias emergentes de AutoML e otimização impulsionada por LLMs. Terceiro, examinamos sistemas multiagentes colaborativos e evolutivos, investigando a inteligência coletiva que emerge das interações, cooperação e estruturas sociais dos agentes, destacando paralelos com a dinâmica social humana. Por fim, abordamos o imperativo crítico de construir sistemas de IA seguros, confiáveis e benéficos, enfatizando ameaças intrínsecas e extrínsecas à segurança, alinhamento ético, robustez e estratégias práticas de mitigação necessárias para uma implantação confiável no mundo real.

ZClip: Mitigação Adaptativa de Picos para Pré-Treinamento de LLMs
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3

ByAbhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

O treinamento de grandes modelos de linguagem (LLMs) apresenta inúmeros desafios, incluindo instabilidade de gradientes e picos de perda. Esses fenômenos podem levar a uma divergência catastrófica, exigindo a restauração dispendiosa de checkpoints e o descarte de lotes de dados. Técnicas tradicionais de recorte de gradiente, como métodos baseados em constantes ou normas, falham em resolver esses problemas de forma eficaz devido à sua dependência de limiares fixos ou heurísticas, resultando em aprendizado ineficiente e exigindo intervenção manual frequente. Neste trabalho, propomos o ZClip, um algoritmo de recorte de gradiente adaptativo que ajusta dinamicamente o limiar de recorte com base nas propriedades estatísticas das normas de gradiente ao longo do tempo. Diferente de estratégias reativas anteriores, o ZClip se adapta proativamente às dinâmicas de treinamento sem fazer suposições prévias sobre a escala e a evolução temporal das normas de gradiente. Em sua essência, ele utiliza detecção de anomalias baseada em z-score para identificar e mitigar grandes picos de gradiente, prevenindo picos malignos de perda sem interferir na convergência em outros casos. Nosso código está disponível em: https://github.com/bluorion-com/ZClip.

Visão Além dos Pixels: Avaliação de Edição Visual Informada por Raciocínio
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3

ByXiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

Os Modelos Multimodais de Grande Escala (LMMs) têm feito progressos significativos na compreensão e geração visual, mas ainda enfrentam desafios na Edição Visual Geral, particularmente em seguir instruções complexas, preservar a consistência de aparência e suportar formatos de entrada flexíveis. Para abordar essa lacuna, introduzimos o RISEBench, o primeiro benchmark para avaliar a Edição Visual Informada por Raciocínio (RISE). O RISEBench foca em quatro tipos principais de raciocínio: Temporal, Causal, Espacial e Lógico. Curamos casos de teste de alta qualidade para cada categoria e propomos um framework de avaliação que mede o Raciocínio de Instrução, a Consistência de Aparência e a Plausibilidade Visual, tanto com juízes humanos quanto com uma abordagem de LMM-como-juiz. Nossos experimentos revelam que, embora o GPT-4o-Native supere significativamente outros modelos de código aberto e proprietários, até mesmo esse sistema de última geração enfrenta dificuldades em tarefas de raciocínio lógico, destacando uma área que permanece pouco explorada. Como um esforço inicial, o RISEBench visa fornecer insights fundamentais sobre a edição visual consciente do raciocínio e catalisar pesquisas futuras. Embora ainda esteja em seus estágios iniciais, estamos comprometidos em expandir e refinar continuamente o benchmark para suportar avaliações mais abrangentes, confiáveis e escaláveis de sistemas multimodais de próxima geração. Nosso código e dados serão disponibilizados em https://github.com/PhoenixZ810/RISEBench.

Escalonamento em Tempo de Inferência para Modelagem de Recompensas Generalistas
Inference-Time Scaling for Generalist Reward Modeling

Apr 3

ByZijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

O aprendizado por reforço (RL, do inglês Reinforcement Learning) tem sido amplamente adotado no pós-treinamento de modelos de linguagem de grande escala (LLMs, do inglês Large Language Models) em escala. Recentemente, a incentivação de capacidades de raciocínio em LLMs por meio de RL indica que métodos de aprendizado adequados podem permitir uma escalabilidade eficaz durante a inferência. Um desafio fundamental do RL é obter sinais de recompensa precisos para LLMs em diversos domínios que vão além de perguntas verificáveis ou regras artificiais. Neste trabalho, investigamos como melhorar a modelagem de recompensa (RM, do inglês Reward Modeling) com maior capacidade computacional de inferência para consultas gerais, ou seja, a escalabilidade em tempo de inferência de modelos de recompensa generalistas, e, além disso, como melhorar a eficácia da escala de desempenho-computação com métodos de aprendizado adequados. Para a abordagem de RM, adotamos a modelagem de recompensa generativa pontual (GRM, do inglês Generative Reward Modeling) para permitir flexibilidade para diferentes tipos de entrada e potencial de escalabilidade durante a inferência. Para o método de aprendizado, propomos o Ajuste de Crítica Autoprincipiada (SPCT, do inglês Self-Principled Critique Tuning) para promover comportamentos escaláveis de geração de recompensa em GRMs por meio de RL online, gerando princípios de forma adaptativa e críticas com precisão, resultando nos modelos DeepSeek-GRM. Além disso, para uma escalabilidade eficaz durante a inferência, utilizamos amostragem paralela para expandir o uso de computação e introduzimos um meta RM para orientar o processo de votação visando um melhor desempenho de escalabilidade. Empiricamente, demonstramos que o SPCT melhora significativamente a qualidade e a escalabilidade dos GRMs, superando métodos e modelos existentes em vários benchmarks de RM sem vieses severos, e pode alcançar um desempenho superior em comparação com a escalabilidade durante o treinamento. O DeepSeek-GRM ainda enfrenta desafios em algumas tarefas, que acreditamos poderão ser resolvidos por esforços futuros em sistemas de recompensa generalistas. Os modelos serão liberados e disponibilizados como código aberto.

GPT-ImgEval: Um Benchmark Abrangente para Diagnóstico do GPT4o na Geração de Imagens
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3

ByZhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

Os recentes avanços no modelo GPT4o da OpenAI demonstraram capacidades surpreendentemente boas em geração e edição de imagens, gerando um entusiasmo significativo na comunidade. Este relatório técnico apresenta o primeiro benchmark de avaliação (denominado GPT-ImgEval), diagnosticando quantitativa e qualitativamente o desempenho do GPT-4o em três dimensões críticas: (1) qualidade de geração, (2) proficiência em edição e (3) síntese semântica informada por conhecimento do mundo. Em todas as três tarefas, o GPT-4o demonstra um desempenho robusto, superando significativamente os métodos existentes tanto no controle da geração de imagens quanto na qualidade da saída, ao mesmo tempo em que exibe capacidades excepcionais de raciocínio baseado em conhecimento. Além disso, com base nos dados gerados pelo GPT-4o, propomos uma abordagem baseada em modelo de classificação para investigar a arquitetura subjacente do GPT-4o, onde nossos resultados empíricos sugerem que o modelo consiste em uma cabeça auto-regressiva (AR) combinada com uma base baseada em difusão para decodificação de imagens, em vez de arquiteturas do tipo VAR. Também fornecemos uma especulação completa sobre a arquitetura geral do GPT-4o. Adicionalmente, conduzimos uma série de análises para identificar e visualizar as limitações específicas do GPT-4o e os artefatos sintéticos comumente observados em sua geração de imagens. Apresentamos ainda um estudo comparativo de edição de imagens em múltiplas rodadas entre o GPT-4o e o Gemini 2.0 Flash, e discutimos as implicações de segurança das saídas do GPT-4o, particularmente sua detectabilidade por modelos forenses de imagem existentes. Esperamos que nosso trabalho possa oferecer insights valiosos e fornecer um benchmark confiável para orientar pesquisas futuras, promover a reprodutibilidade e acelerar a inovação no campo da geração de imagens e além. Os códigos e conjuntos de dados utilizados para avaliar o GPT-4o podem ser encontrados em https://github.com/PicoTrex/GPT-ImgEval.

JavisDiT: Transformador de Difusão Conjunta Áudio-Vídeo com Sincronização Hierárquica de Prioridades Espaço-Temporais
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30

ByKai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

Este artigo apresenta o JavisDiT, um novo Joint Audio-Video Diffusion Transformer projetado para geração sincronizada de áudio e vídeo (JAVG). Baseado na poderosa arquitetura Diffusion Transformer (DiT), o JavisDiT é capaz de gerar conteúdo de áudio e vídeo de alta qualidade simultaneamente a partir de prompts abertos do usuário. Para garantir uma sincronização ideal, introduzimos um mecanismo de alinhamento espaço-temporal refinado por meio de um Hierarchical Spatial-Temporal Synchronized Prior (HiST-Sypo) Estimator. Este módulo extrai prioris espaço-temporais tanto globais quanto refinadas, orientando a sincronização entre os componentes visuais e auditivos. Além disso, propomos um novo benchmark, o JavisBench, composto por 10.140 vídeos sonoros de alta qualidade com legendas de texto, abrangendo diversas cenas e cenários complexos do mundo real. Adicionalmente, desenvolvemos especificamente uma métrica robusta para avaliar a sincronização entre pares de áudio e vídeo gerados em conteúdos complexos do mundo real. Os resultados experimentais demonstram que o JavisDiT supera significativamente os métodos existentes, garantindo tanto a geração de alta qualidade quanto a sincronização precisa, estabelecendo um novo padrão para tarefas de JAVG. Nosso código, modelo e conjunto de dados estarão publicamente disponíveis em https://javisdit.github.io/.

Difusão de Vídeo Controlada por Áudio-Visual com Modelagem de Espaços de Estado Seletivos Mascarados para Geração Natural de Cabeças Falantes
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3

ByFa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

A síntese de cabeças falantes é crucial para avatares virtuais e interação humano-computador. No entanto, a maioria dos métodos existentes é tipicamente limitada a aceitar controle de uma única modalidade primária, restringindo sua utilidade prática. Para isso, introduzimos o ACTalker, uma estrutura de difusão de vídeo end-to-end que suporta tanto o controle multi-sinais quanto o controle de sinal único para a geração de vídeos de cabeças falantes. Para o controle múltiplo, projetamos uma estrutura mamba paralela com múltiplos ramos, cada um utilizando um sinal de controle separado para manipular regiões faciais específicas. Um mecanismo de porta é aplicado em todos os ramos, proporcionando controle flexível sobre a geração de vídeo. Para garantir a coordenação natural do vídeo controlado tanto temporal quanto espacialmente, empregamos a estrutura mamba, que permite que os sinais de controle manipulem tokens de características em ambas as dimensões em cada ramo. Além disso, introduzimos uma estratégia de mask-drop que permite que cada sinal de controle controle independentemente sua região facial correspondente dentro da estrutura mamba, evitando conflitos de controle. Resultados experimentais demonstram que nosso método produz vídeos faciais de aparência natural impulsionados por diversos sinais e que a camada mamba integra perfeitamente múltiplas modalidades de controle sem conflitos.

SkyReels-A2: Compor Qualquer Coisa em Transformadores de Difusão de Vídeo
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3

ByZhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

Este artigo apresenta o SkyReels-A2, um framework de geração de vídeo controlável capaz de montar elementos visuais arbitrários (por exemplo, personagens, objetos, cenários) em vídeos sintetizados com base em prompts textuais, mantendo consistência estrita com imagens de referência para cada elemento. Denominamos essa tarefa de elementos-para-vídeo (E2V), cujos principais desafios residem em preservar a fidelidade de cada elemento de referência, garantir a composição coerente da cena e alcançar saídas naturais. Para abordar esses desafios, primeiro projetamos um pipeline de dados abrangente para construir triplas prompt-referência-vídeo para o treinamento do modelo. Em seguida, propomos um novo modelo de incorporação conjunta de imagem e texto para injetar representações de múltiplos elementos no processo generativo, equilibrando a consistência específica do elemento com a coerência global e o alinhamento textual. Também otimizamos o pipeline de inferência para velocidade e estabilidade de saída. Além disso, introduzimos um benchmark cuidadosamente curado para avaliação sistemática, denominado A2 Bench. Experimentos demonstram que nosso framework pode gerar vídeos diversos e de alta qualidade com controle preciso dos elementos. O SkyReels-A2 é o primeiro modelo de código aberto de nível comercial para a geração de E2V, apresentando desempenho favorável em comparação com modelos comerciais avançados de código fechado. Antecipamos que o SkyReels-A2 avançará aplicações criativas, como drama e e-commerce virtual, expandindo os limites da geração de vídeo controlável.

WikiVideo: Geração de Artigos a Partir de Múltiplos Vídeos
WikiVideo: Article Generation from Multiple Videos

Apr 1

ByAlexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

Apresentamos a tarefa desafiadora de criar automaticamente um artigo de alto nível no estilo da Wikipedia que agrega informações de diversos vídeos sobre eventos do mundo real, como desastres naturais ou eleições políticas. Os vídeos são fontes intuitivas para geração aumentada por recuperação (RAG, do inglês Retrieval-Augmented Generation), mas a maioria dos fluxos de trabalho contemporâneos de RAG foca fortemente em texto, e os métodos existentes para sumarização baseada em vídeo concentram-se no entendimento de cenas de baixo nível em vez da semântica de eventos de alto nível. Para preencher essa lacuna, introduzimos o WikiVideo, um benchmark composto por artigos escritos por especialistas e vídeos densamente anotados que fornecem evidências para as afirmações dos artigos, facilitando a integração de vídeos em pipelines de RAG e permitindo a criação de conteúdo detalhado fundamentado em fontes multimodais. Além disso, propomos a Geração Colaborativa de Artigos (CAG, do inglês Collaborative Article Generation), um método interativo inovador para a criação de artigos a partir de múltiplos vídeos. O CAG aproveita uma interação iterativa entre um modelo de raciocínio no estilo r1 e um VideoLLM para inferir conclusões de nível mais alto sobre o evento-alvo do que é possível com VideoLLMs isoladamente, que se fixam em características visuais de baixo nível. Avaliamos VideoLLMs de última geração e o CAG em cenários de recuperação oráculo e RAG, e descobrimos que o CAG supera consistentemente métodos alternativos, ao mesmo tempo que sugere caminhos intrigantes para trabalhos futuros.

Repensando a Escalabilidade de RL para Modelos de Visão e Linguagem: Um Framework Transparente e do Zero com um Esquema de Avaliação Abrangente
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3

ByYan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

O aprendizado por reforço (RL) tem demonstrado recentemente um forte potencial para melhorar as capacidades de raciocínio de grandes modelos de linguagem e agora está sendo ativamente estendido para modelos de visão e linguagem (VLMs). No entanto, as aplicações existentes de RL em VLMs frequentemente dependem de estruturas altamente engenheiradas que dificultam a reprodutibilidade e a acessibilidade, além de carecerem de protocolos de avaliação padronizados, tornando difícil comparar resultados ou interpretar a dinâmica de treinamento. Este trabalho introduz uma estrutura transparente e do zero para RL em VLMs, oferecendo um pipeline mínimo, porém funcional, de quatro etapas, validado em vários modelos e conjuntos de dados. Além disso, é proposto um esquema de avaliação padronizado para analisar a dinâmica de treinamento e os comportamentos reflexivos. Experimentos extensos em tarefas de raciocínio visual revelam descobertas empíricas importantes: o comprimento da resposta é sensível a sementes aleatórias, a reflexão está correlacionada com o comprimento da saída, e o RL consistentemente supera o ajuste fino supervisionado (SFT) em generalização, mesmo com dados de alta qualidade. Essas descobertas, juntamente com a estrutura proposta, visam estabelecer uma linha de base reprodutível e apoiar um engajamento mais amplo na pesquisa de VLMs baseada em RL.

Análise de Escalabilidade de Modelos de Linguagem com Intercalação de Fala e Texto
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3

ByGallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

A análise existente sobre a escalabilidade dos Modelos de Linguagem de Fala (SLMs) pinta um cenário desanimador. Ela prevê que os SLMs exigem muito mais capacidade computacional e dados em comparação com os modelos de texto, levando alguns a questionar a viabilidade de treinar SLMs de alta qualidade. No entanto, os SLMs modernos são frequentemente inicializados a partir de Modelos de Linguagem de Texto (TextLMs) pré-treinados, utilizando intercalação de fala e texto para permitir a transferência de conhecimento. Isso levanta a questão: os SLMs intercalados escalam de forma mais eficiente do que os SLMs sem texto? Neste artigo, respondemos com um sonoro sim! Realizamos uma análise de escalabilidade dos SLMs intercalados, treinando várias dezenas de modelos e analisando as tendências de escalabilidade. Observamos que, nessa configuração, os SLMs escalam de forma mais eficiente com o aumento da capacidade computacional. Além disso, nossos resultados indicam que a dinâmica de escalabilidade é significativamente diferente da dos SLMs sem texto, sugerindo que se deve alocar consideravelmente mais do orçamento computacional para aumentar o tamanho do modelo em vez de aumentar o número de tokens de treinamento. Também estudamos o papel dos dados sintéticos e das famílias de modelos TextLM no desbloqueio desse potencial. Os resultados sugerem que nosso modelo escalonado alcança desempenho comparável aos modelos líderes em métricas semânticas de fala, utilizando menos capacidade computacional e dados do que outras abordagens. Disponibilizamos modelos, amostras e dados em código aberto - https://pages.cs.huji.ac.il/adiyoss-lab/sims.

ShortV: Modelos Multimodais de Grande Escala Eficientes através do Congelamento de Tokens Visuais em Camadas Ineficazes
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1

ByQianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) enfrentam altos custos computacionais devido ao seu tamanho massivo e ao grande número de tokens visuais. Neste artigo, investigamos a redundância em camadas dos MLLMs introduzindo uma nova métrica, Contribuição de Camada (LC), que quantifica o impacto das transformações de uma camada sobre os tokens visuais e textuais, respectivamente. O cálculo do LC envolve medir a divergência na saída do modelo que resulta da remoção das transformações da camada sobre os tokens especificados. Nosso experimento piloto revela que muitas camadas dos MLLMs exibem contribuição mínima durante o processamento de tokens visuais. Motivados por essa observação, propomos o ShortV, um método sem necessidade de treinamento que utiliza o LC para identificar camadas ineficazes e congela as atualizações de tokens visuais nessas camadas. Experimentos mostram que o ShortV pode congelar tokens visuais em aproximadamente 60\% das camadas do MLLM, reduzindo drasticamente os custos computacionais relacionados à atualização de tokens visuais. Por exemplo, ele alcança uma redução de 50\% em FLOPs no LLaVA-NeXT-13B enquanto mantém um desempenho superior. O código estará publicamente disponível em https://github.com/icip-cas/ShortV.

FreSca: Revelando o Espaço de Escalonamento em Modelos de Difusão
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2

ByChao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

Os modelos de difusão oferecem uma impressionante capacidade de controle para tarefas de imagem, principalmente por meio de previsões de ruído que codificam informações específicas da tarefa e da orientação sem classificador, permitindo um dimensionamento ajustável. Esse mecanismo de dimensionamento define implicitamente um "espaço de dimensionamento", cujo potencial para manipulação semântica refinada permanece pouco explorado. Investigamos esse espaço, começando com a edição baseada em inversão, onde a diferença entre as previsões de ruído condicionais e incondicionais carrega informações semânticas cruciais. Nossa principal contribuição surge de uma análise de Fourier das previsões de ruído, revelando que seus componentes de baixa e alta frequência evoluem de maneira diferente ao longo da difusão. Com base nessa percepção, introduzimos o FreSca, um método simples que aplica o dimensionamento de orientação de forma independente a diferentes bandas de frequência no domínio de Fourier. O FreSca demonstra aprimorar os métodos existentes de edição de imagem sem necessidade de retreinamento. De forma empolgante, sua eficácia se estende a tarefas de compreensão de imagem, como estimativa de profundidade, gerando ganhos quantitativos em múltiplos conjuntos de dados.

Seleção Eficiente de Modelos para Previsão de Séries Temporais via LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2

ByWang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

A seleção de modelos é uma etapa crucial na previsão de séries temporais, tradicionalmente exigindo extensas avaliações de desempenho em diversos conjuntos de dados. Abordagens de meta-aprendizado visam automatizar esse processo, mas geralmente dependem de matrizes de desempenho pré-construídas, que são custosas para desenvolver. Neste trabalho, propomos utilizar Modelos de Linguagem de Grande Escala (LLMs) como uma alternativa leve para a seleção de modelos. Nosso método elimina a necessidade de matrizes de desempenho explícitas ao aproveitar o conhecimento intrínseco e as capacidades de raciocínio dos LLMs. Por meio de experimentos extensivos com LLaMA, GPT e Gemini, demonstramos que nossa abordagem supera técnicas tradicionais de meta-aprendizado e baselines heurísticas, ao mesmo tempo em que reduz significativamente a sobrecarga computacional. Esses resultados destacam o potencial dos LLMs para uma seleção eficiente de modelos na previsão de séries temporais.

OpenCodeReasoning: Avançando na Destilação de Dados para Programação Competitiva
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2

ByWasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

Desde o advento dos grandes modelos de linguagem baseados em raciocínio, muitos têm obtido grande sucesso ao destilar capacidades de raciocínio em modelos estudantis. Tais técnicas têm reduzido significativamente a lacuna entre o raciocínio e os LLMs padrão em tarefas de codificação. Apesar disso, grande parte do progresso na destilação de modelos de raciocínio permanece restrita a conjuntos de dados proprietários ou carece de detalhes sobre a curadoria, filtragem e treinamento subsequente dos dados. Para abordar isso, construímos um conjunto de dados de ajuste fino supervisionado (SFT) superior, que utilizamos para alcançar resultados de capacidade de codificação de última geração em modelos de vários tamanhos. Nossos modelos destilados usam apenas SFT para atingir 61,8% no LiveCodeBench e 24,6% no CodeContests, superando alternativas treinadas com aprendizado por reforço. Em seguida, realizamos uma análise sobre as fontes de dados usadas para construir nosso conjunto de dados, o impacto da filtragem por execução de código e a importância da diversidade de instruções/soluções. Observamos que a filtragem por execução afetou negativamente a precisão dos benchmarks, levando-nos a priorizar a diversidade de instruções em vez da correção das soluções. Por fim, também analisamos a eficiência de tokens e os padrões de raciocínio utilizados por esses modelos. Disponibilizaremos esses conjuntos de dados e modelos destilados como código aberto para a comunidade.

GenPRM: Escalonando o Cálculo em Tempo de Teste de Modelos de Recompensa de Processo por meio de Raciocínio Generativo
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1

ByJian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

Os recentes avanços em Modelos de Linguagem de Grande Escala (LLMs) demonstraram que é promissor utilizar Modelos de Recompensa de Processo (PRMs) como verificadores para aprimorar o desempenho dos LLMs. No entanto, os PRMs atuais enfrentam três desafios principais: (1) capacidades limitadas de supervisão e generalização de processos, (2) dependência de previsões de valores escalares sem aproveitar as habilidades gerativas dos LLMs, e (3) incapacidade de escalar o cálculo em tempo de teste dos PRMs. Neste trabalho, introduzimos o GenPRM, um modelo de recompensa de processo generativo que realiza raciocínio explícito em Cadeia de Pensamento (CoT) com verificação de código antes de fornecer um julgamento para cada etapa do raciocínio. Para obter rótulos de supervisão de processo e dados de racionalização de alta qualidade, propomos a Estimativa de Progresso Relativo (RPE) e um framework de síntese de racionalização que incorpora a verificação de código. Resultados experimentais no ProcessBench e em várias tarefas de raciocínio matemático mostram que o GenPRM supera significativamente os PRMs anteriores com apenas 23K dados de treinamento do conjunto de dados MATH. Através do escalonamento em tempo de teste, um GenPRM de 1,5B supera o GPT-4o, e um GenPRM de 7B supera o Qwen2.5-Math-PRM-72B no ProcessBench. Além disso, o GenPRM demonstra fortes habilidades para servir como um modelo crítico para o refinamento de modelos de política. Este trabalho estabelece um novo paradigma para a supervisão de processos que preenche a lacuna entre PRMs e modelos críticos em LLMs. Nosso código, modelo e dados estarão disponíveis em https://ryanliu112.github.io/GenPRM.

Leis de Escalonamento na Descoberta Científica com IA e Cientistas Robôs
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28

ByPengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

A descoberta científica está prestes a avançar rapidamente por meio de robótica avançada e inteligência artificial. As práticas científicas atuais enfrentam limitações significativas, já que a experimentação manual continua a ser demorada e intensiva em recursos, enquanto a pesquisa multidisciplinar exige a integração de conhecimentos além dos limites da expertise de pesquisadores individuais. Aqui, vislumbramos o conceito de um cientista generalista autônomo (CGA), que combina IA agentiva e robótica incorporada para automatizar todo o ciclo de vida da pesquisa. Esse sistema poderia interagir dinamicamente tanto com ambientes físicos quanto virtuais, ao mesmo tempo em que facilita a integração de conhecimentos em diversas disciplinas científicas. Ao implantar essas tecnologias em todas as etapas da pesquisa — desde a revisão da literatura, geração de hipóteses, experimentação até a redação de manuscritos — e incorporar reflexão interna juntamente com feedback externo, esse sistema visa reduzir significativamente o tempo e os recursos necessários para a descoberta científica. Com base na evolução de cientistas virtuais de IA para robôs cientistas generalistas versáteis baseados em IA, o CGA promete um potencial revolucionário. À medida que esses sistemas autônomos se tornam cada vez mais integrados ao processo de pesquisa, hipotetizamos que a descoberta científica pode aderir a novas leis de escalabilidade, potencialmente moldadas pelo número e pelas capacidades desses sistemas autônomos, oferecendo novas perspectivas sobre como o conhecimento é gerado e evolui. A adaptabilidade de robôs incorporados a ambientes extremos, aliada ao efeito flywheel do acúmulo de conhecimento científico, promete continuamente ultrapassar tanto as fronteiras físicas quanto as intelectuais.

Interpretando o Planejamento Emergente no Aprendizado por Reforço Livre de Modelos
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2

ByThomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

Apresentamos as primeiras evidências mecanicistas de que agentes de aprendizado por reforço livre de modelo podem aprender a planejar. Isso é alcançado aplicando uma metodologia baseada em interpretabilidade conceitual a um agente livre de modelo em Sokoban -- um benchmark comumente usado para estudar planejamento. Especificamente, demonstramos que o DRC, um agente livre de modelo genérico introduzido por Guez et al. (2019), usa representações conceituais aprendidas para formular internamente planos que tanto preveem os efeitos de longo prazo das ações no ambiente quanto influenciam a seleção de ações. Nossa metodologia envolve: (1) investigar conceitos relevantes para o planejamento, (2) explorar a formação de planos nas representações do agente e (3) verificar que os planos descobertos (nas representações do agente) têm um efeito causal no comportamento do agente por meio de intervenções. Também mostramos que o surgimento desses planos coincide com o surgimento de uma propriedade semelhante ao planejamento: a capacidade de se beneficiar de computação adicional durante o teste. Por fim, realizamos uma análise qualitativa do algoritmo de planejamento aprendido pelo agente e descobrimos uma forte semelhança com a busca bidirecional paralelizada. Nossas descobertas avançam a compreensão dos mecanismos internos subjacentes ao comportamento de planejamento em agentes, o que é importante dada a recente tendência de capacidades emergentes de planejamento e raciocínio em LLMs por meio de RL.

NeuralGS: Conectando Campos Neurais e Splatting Gaussiano 3D para Representações Compactas em 3D
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29

ByZhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

O método 3D Gaussian Splatting (3DGS) demonstra qualidade superior e velocidade de renderização, mas envolve milhões de Gaussianas 3D e custos significativos de armazenamento e transmissão. Métodos recentes de compressão de 3DGS concentram-se principalmente na compressão do Scaffold-GS, alcançando desempenho impressionante, mas com uma estrutura de voxel adicional e uma estratégia complexa de codificação e quantização. Neste artigo, buscamos desenvolver um método simples, porém eficaz, chamado NeuralGS, que explora uma abordagem alternativa para comprimir o 3DGS original em uma representação compacta, sem a estrutura de voxel e as estratégias complexas de quantização. Nossa observação é que campos neurais, como o NeRF, podem representar cenas 3D complexas com redes neurais Multi-Layer Perceptron (MLP) usando apenas alguns megabytes. Assim, o NeuralGS adota efetivamente a representação de campo neural para codificar os atributos das Gaussianas 3D com MLPs, exigindo apenas um pequeno tamanho de armazenamento, mesmo para cenas em grande escala. Para isso, adotamos uma estratégia de agrupamento e ajustamos as Gaussianas com diferentes MLPs pequenos para cada grupo, com base em escores de importância das Gaussianas como pesos de ajuste. Realizamos experimentos em múltiplos conjuntos de dados, alcançando uma redução média de 45 vezes no tamanho do modelo sem prejudicar a qualidade visual. O desempenho de compressão do nosso método no 3DGS original é comparável aos métodos de compressão dedicados baseados em Scaffold-GS, o que demonstra o enorme potencial de comprimir diretamente o 3DGS original com campos neurais.

Autoencoders Esparsos Aprendem Características Monossemânticas em Modelos de Visão e Linguagem
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3

ByMateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

Autoencoders Esparsos (SAEs) têm demonstrado recentemente melhorar a interpretabilidade e a capacidade de direcionamento em Modelos de Linguagem de Grande Escala (LLMs). Neste trabalho, estendemos a aplicação de SAEs para Modelos Visão-Linguagem (VLMs), como o CLIP, e introduzimos um framework abrangente para avaliar a monosemanticidade em representações visuais. Nossos resultados experimentais revelam que SAEs treinados em VLMs melhoram significativamente a monosemanticidade de neurônios individuais, ao mesmo tempo em que exibem representações hierárquicas que se alinham bem com estruturas definidas por especialistas (por exemplo, a taxonomia do iNaturalist). Mais notavelmente, demonstramos que a aplicação de SAEs para intervir em um codificador visual do CLIP direciona diretamente a saída de LLMs multimodais (por exemplo, LLaVA) sem qualquer modificação no modelo subjacente. Essas descobertas enfatizam a praticidade e a eficácia dos SAEs como uma abordagem não supervisionada para aprimorar tanto a interpretabilidade quanto o controle de VLMs.

Whisper-LM: Aprimorando Modelos de ASR com Modelos de Linguagem para Idiomas de Baixos Recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30

ByXabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

Sistemas de reconhecimento automático de fala avançaram significativamente com a integração de modelos multilíngues e multitarefa, como o Whisper, que demonstraram uma capacidade promissora de compreender e processar fala em uma ampla gama de idiomas. Apesar de sua robustez, esses modelos frequentemente apresentam dificuldades em lidar com as distinções linguísticas de idiomas minoritários. Este estudo aborda essa lacuna ao integrar modelos linguísticos tradicionais e inovadores com modelos Whisper ajustados para elevar seu desempenho em idiomas menos estudados. Por meio de ajustes finos rigorosos e avaliações em múltiplos conjuntos de dados, demonstramos melhorias substanciais na taxa de erro de palavras, especialmente em cenários de baixos recursos. Nossa abordagem não apenas aproveita os extensos dados nos quais o Whisper foi pré-treinado, mas também complementa sua adaptabilidade linguística ao incorporar modelos de linguagem. Obtivemos melhorias de até 51% para conjuntos de dados dentro da distribuição e até 34% para frases fora da distribuição ao usar modelos de linguagem estatísticos, enquanto modelos de linguagem grandes proporcionaram melhorias moderadas, porém consistentemente robustas, em diversos contextos linguísticos. Os resultados revelam que, embora a integração beneficie de forma confiável todos os tamanhos de modelos, a extensão da melhoria varia, destacando a importância da otimização dos parâmetros dos modelos de linguagem. Por fim, enfatizamos a importância de selecionar parâmetros de avaliação apropriados ao relatar os resultados usando modelos ASR baseados em transformadores. Em resumo, esta pesquisa abre caminho para tecnologias ASR mais inclusivas que apresentam melhor desempenho em diversos idiomas ao enriquecer seu conhecimento linguístico. Para mais detalhes de implementação deste estudo, a documentação técnica e o código-fonte estão disponíveis em http://www.github.com/hitz-zentroa/whisper-lm.

Geração de Parâmetros de Rede Neural Autoregressiva Orientada por Instruções
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2

BySoro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Aprender a gerar parâmetros de redes neurais condicionados a descrições de tarefas e especificações de arquitetura é fundamental para avançar a adaptabilidade de modelos e o aprendizado por transferência. Métodos existentes, especialmente aqueles baseados em modelos de difusão, sofrem com escalabilidade limitada para arquiteturas grandes, rigidez no tratamento de profundidades variáveis de rede e geração de parâmetros desconexa que prejudica a coerência entre camadas. Neste trabalho, propomos o IGPG (Instruction Guided Parameter Generation), um framework autoregressivo que unifica a síntese de parâmetros em diversas tarefas e arquiteturas. O IGPG utiliza um VQ-VAE e um modelo autoregressivo para gerar parâmetros de redes neurais, condicionados a instruções de tarefa, conjunto de dados e detalhes de arquitetura. Ao gerar tokens dos pesos da rede neural de forma autoregressiva, o IGPG garante coerência entre camadas e permite uma adaptação eficiente entre modelos e conjuntos de dados. Operando no nível de tokens, o IGPG captura efetivamente distribuições complexas de parâmetros agregadas de um amplo espectro de modelos pré-treinados. Experimentos extensivos em múltiplos conjuntos de dados de visão demonstram que o IGPG consolida diversos modelos pré-treinados em um único framework generativo flexível. Os parâmetros sintetizados alcançam desempenho competitivo ou superior em relação aos métodos state-of-the-art, especialmente em termos de escalabilidade e eficiência quando aplicados a arquiteturas grandes. Esses resultados destacam o potencial do IGPG como uma ferramenta poderosa para recuperação de pesos pré-treinados, seleção de modelos e ajuste fino rápido para tarefas específicas.

Segmentação Panóptica Não Supervisionada Centrada em Cenas
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2

ByOliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth

A segmentação panóptica não supervisionada tem como objetivo dividir uma imagem em regiões semanticamente significativas e instâncias de objetos distintas sem treinamento em dados anotados manualmente. Em contraste com trabalhos anteriores sobre compreensão de cenas panópticas não supervisionadas, eliminamos a necessidade de dados de treinamento centrados em objetos, permitindo a compreensão não supervisionada de cenas complexas. Para isso, apresentamos o primeiro método panóptico não supervisionado que treina diretamente em imagens centradas em cenas. Em particular, propomos uma abordagem para obter rótulos pseudo panópticos de alta resolução em dados complexos centrados em cenas, combinando representações visuais, profundidade e pistas de movimento. A utilização tanto do treinamento com rótulos pseudo quanto de uma estratégia de auto-treinamento panóptico resulta em uma abordagem inovadora que prevê com precisão a segmentação panóptica de cenas complexas sem exigir nenhuma anotação humana. Nossa abordagem melhora significativamente a qualidade panóptica, superando, por exemplo, o estado da arte recente em segmentação panóptica não supervisionada no Cityscapes em 9,4 pontos percentuais em PQ.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Avanços e Desafios em Agentes Fundamentais: Da Inteligência Inspirada no Cérebro a Sistemas Evolutivos, Colaborativos e Seguros
Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems

Mar 31

301

ZClip: Mitigação Adaptativa de Picos para Pré-Treinamento de LLMs
ZClip: Adaptive Spike Mitigation for LLM Pre-Training

Apr 3

ByAbhay Kumar, Louis Owen, Nilabhra Roy Chowdhury, Fabian Güra

Visão Além dos Pixels: Avaliação de Edição Visual Informada por Raciocínio
Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing

Apr 3

ByXiangyu Zhao, Peiyuan Zhang, Kexian Tang, Hao Li, Zicheng Zhang, Guangtao Zhai, Junchi Yan, Hua Yang, Xue Yang, Haodong Duan

Escalonamento em Tempo de Inferência para Modelagem de Recompensas Generalistas
Inference-Time Scaling for Generalist Reward Modeling

Apr 3

ByZijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

GPT-ImgEval: Um Benchmark Abrangente para Diagnóstico do GPT4o na Geração de Imagens
GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation

Apr 3

ByZhiyuan Yan, Junyan Ye, Weijia Li, Zilong Huang, Shenghai Yuan, Xiangyang He, Kaiqing Lin, Jun He, Conghui He, Li Yuan

JavisDiT: Transformador de Difusão Conjunta Áudio-Vídeo com Sincronização Hierárquica de Prioridades Espaço-Temporais
JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

Mar 30

ByKai Liu, Wei Li, Lai Chen, Shengqiong Wu, Yanhao Zheng, Jiayi Ji, Fan Zhou, Rongxin Jiang, Jiebo Luo, Hao Fei, Tat-Seng Chua

Difusão de Vídeo Controlada por Áudio-Visual com Modelagem de Espaços de Estado Seletivos Mascarados para Geração Natural de Cabeças Falantes
Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation

Apr 3

ByFa-Ting Hong, Zunnan Xu, Zixiang Zhou, Jun Zhou, Xiu Li, Qin Lin, Qinglin Lu, Dan Xu

SkyReels-A2: Compor Qualquer Coisa em Transformadores de Difusão de Vídeo
SkyReels-A2: Compose Anything in Video Diffusion Transformers

Apr 3

ByZhengcong Fei, Debang Li, Di Qiu, Jiahua Wang, Yikun Dou, Rui Wang, Jingtao Xu, Mingyuan Fan, Guibin Chen, Yang Li, Yahui Zhou

WikiVideo: Geração de Artigos a Partir de Múltiplos Vídeos
WikiVideo: Article Generation from Multiple Videos

Apr 1

ByAlexander Martin, Reno Kriz, William Gantt Walden, Kate Sanders, Hannah Recknor, Eugene Yang, Francis Ferraro, Benjamin Van Durme

Repensando a Escalabilidade de RL para Modelos de Visão e Linguagem: Um Framework Transparente e do Zero com um Esquema de Avaliação Abrangente
Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme

Apr 3

ByYan Ma, Steffi Chern, Xuyang Shen, Yiran Zhong, Pengfei Liu

Análise de Escalabilidade de Modelos de Linguagem com Intercalação de Fala e Texto
Scaling Analysis of Interleaved Speech-Text Language Models

Apr 3

ByGallil Maimon, Michael Hassid, Amit Roth, Yossi Adi

ShortV: Modelos Multimodais de Grande Escala Eficientes através do Congelamento de Tokens Visuais em Camadas Ineficazes
ShortV: Efficient Multimodal Large Language Models by Freezing Visual Tokens in Ineffective Layers

Apr 1

ByQianhao Yuan, Qingyu Zhang, Yanjiang Liu, Jiawei Chen, Yaojie Lu, Hongyu Lin, Jia Zheng, Xianpei Han, Le Sun

FreSca: Revelando o Espaço de Escalonamento em Modelos de Difusão
FreSca: Unveiling the Scaling Space in Diffusion Models

Apr 2

ByChao Huang, Susan Liang, Yunlong Tang, Li Ma, Yapeng Tian, Chenliang Xu

Seleção Eficiente de Modelos para Previsão de Séries Temporais via LLMs
Efficient Model Selection for Time Series Forecasting via LLMs

Apr 2

ByWang Wei, Tiankai Yang, Hongjie Chen, Ryan A. Rossi, Yue Zhao, Franck Dernoncourt, Hoda Eldardiry

OpenCodeReasoning: Avançando na Destilação de Dados para Programação Competitiva
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Apr 2

ByWasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg

GenPRM: Escalonando o Cálculo em Tempo de Teste de Modelos de Recompensa de Processo por meio de Raciocínio Generativo
GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning

Apr 1

ByJian Zhao, Runze Liu, Kaiyan Zhang, Zhimu Zhou, Junqi Gao, Dong Li, Jiafei Lyu, Zhouyi Qian, Biqing Qi, Xiu Li, Bowen Zhou

Leis de Escalonamento na Descoberta Científica com IA e Cientistas Robôs
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Mar 28

ByPengsong Zhang, Heng Zhang, Huazhe Xu, Renjun Xu, Zhenting Wang, Cong Wang, Animesh Garg, Zhibin Li, Arash Ajoudani, Xinyu Liu

Interpretando o Planejamento Emergente no Aprendizado por Reforço Livre de Modelos
Interpreting Emergent Planning in Model-Free Reinforcement Learning

Apr 2

ByThomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

NeuralGS: Conectando Campos Neurais e Splatting Gaussiano 3D para Representações Compactas em 3D
NeuralGS: Bridging Neural Fields and 3D Gaussian Splatting for Compact 3D Representations

Mar 29

ByZhenyu Tang, Chaoran Feng, Xinhua Cheng, Wangbo Yu, Junwu Zhang, Yuan Liu, Xiaoxiao Long, Wenping Wang, Li Yuan

Autoencoders Esparsos Aprendem Características Monossemânticas em Modelos de Visão e Linguagem
Sparse Autoencoders Learn Monosemantic Features in Vision-Language Models

Apr 3

ByMateusz Pach, Shyamgopal Karthik, Quentin Bouniot, Serge Belongie, Zeynep Akata

Whisper-LM: Aprimorando Modelos de ASR com Modelos de Linguagem para Idiomas de Baixos Recursos
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages

Mar 30

ByXabier de Zuazo, Eva Navas, Ibon Saratxaga, Inma Hernáez Rioja

Geração de Parâmetros de Rede Neural Autoregressiva Orientada por Instruções
Instruction-Guided Autoregressive Neural Network Parameter Generation

Apr 2

BySoro Bedionita, Bruno Andreis, Song Chong, Sung Ju Hwang

Segmentação Panóptica Não Supervisionada Centrada em Cenas
Scene-Centric Unsupervised Panoptic Segmentation

Apr 2

ByOliver Hahn, Christoph Reich, Nikita Araslanov, Daniel Cremers, Christian Rupprecht, Stefan Roth