HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

22 papers found

LLaTiSA: Rumo ao Raciocínio sobre Séries Temporais Estratificadas por Dificuldade, da Percepção Visual à Semântica
LLaTiSA: Towards Difficulty-Stratified Time Series Reasoning from Visual Perception to Semantics

Apr 19

ByYueyang Ding, HaoPeng Zhang, Rui Dai, Yi Wang, Tianyu Zong, Kaikui Liu, Xiangxiang Chu

A compreensão abrangente de séries temporais permanece um desafio significativo para os Grandes Modelos de Linguagem (LLMs). A pesquisa atual é dificultada por definições de tarefas fragmentadas e benchmarks com ambiguidades inerentes, impedindo uma avaliação rigorosa e o desenvolvimento de Modelos de Raciocínio de Séries Temporais (TSRMs) unificados. Para preencher esta lacuna, formalizamos o Raciocínio de Séries Temporais (TSR) por meio de uma taxonomia de quatro níveis de complexidade cognitiva crescente. Apresentamos o HiTSR, um conjunto de dados hierárquico de raciocínio de séries temporais composto por 83 mil amostras com diversas combinações de tarefas e trajetórias de Cadeia de Pensamento (CoT) verificadas. Utilizando o HiTSR, propomos o LLaTiSA, um TSRM robusto que integra padrões visualizados com tabelas numéricas de precisão calibrada para aprimorar a percepção temporal de Modelos de Linguagem Visual (VLMs). Por meio de uma estratégia de fine-tuning curricular multiestágio, o LLaTiSA alcança desempenho superior e exibe generalização robusta fora da distribuição em diversas tarefas de TSR e cenários do mundo real. Nosso código está disponível em https://github.com/RainingNovember/LLaTiSA.

WorldMark: Um Conjunto de Benchmark Unificado para Modelos de Mundo de Vídeo Interativos
WorldMark: A Unified Benchmark Suite for Interactive Video World Models

Apr 23

ByXiaojie Xu, Zhengyuan Lin, Kang He, Yukang Feng, Xiaofeng Mao, Yuanyang Yin, Kaipeng Zhang, Yongtao Ge

Modelos de geração de vídeo interativo como Genie, YUME, HY-World e Matrix-Game estão avançando rapidamente, mas cada modelo é avaliado em seu próprio benchmark com cenas e trajetórias privadas, tornando impossível uma comparação justa entre modelos. Benchmarks públicos existentes oferecem métricas úteis como erro de trajetória, pontuações estéticas e avaliações baseadas em VLMs, mas nenhum fornece as condições padronizadas de teste – cenas idênticas, sequências de ação idênticas e uma interface de controle unificada – necessárias para tornar essas métricas comparáveis entre modelos com entradas heterogêneas. Apresentamos o WorldMark, o primeiro benchmark que fornece esse campo comum para modelos de mundo interativos do tipo Imagem-para-Vídeo. O WorldMark contribui com: (1) uma camada unificada de mapeamento de ações que traduz um vocabulário de ação compartilhado no estilo WASD para o formato de controle nativo de cada modelo, permitindo comparação direta entre seis modelos principais em cenas e trajetórias idênticas; (2) um conjunto de testes hierárquico com 500 casos de avaliação cobrando perspectivas em primeira e terceira pessoa, cenas realistas e estilizadas, e três níveis de dificuldade (Fácil, Médio, Difícil) abrangendo 20-60 segundos; e (3) um kit de ferramentas de avaliação modular para Qualidade Visual, Alinhamento de Controle e Consistência do Mundo, projetado para que pesquisadores possam reutilizar nossas entradas padronizadas enquanto inserem suas próprias métricas conforme o campo evolui. Liberaremos todos os dados, código de avaliação e saídas dos modelos para facilitar pesquisas futuras. Além das métricas offline, lançamos a World Model Arena (warena.ai), uma plataforma online onde qualquer pessoa pode colocar os principais modelos de mundo em competição lado a lado e acompanhar a tabela de classificação em tempo real.

UniT: Rumo a uma Linguagem Física Unificada para Aprendizado de Políticas Humano-Humanoide e Modelagem do Mundo
UniT: Toward a Unified Physical Language for Human-to-Humanoid Policy Learning and World Modeling

Apr 21

ByBoyu Chen, Yi Chen, Lu Qiu, Jerry Bai, Yuying Ge, Yixiao Ge

A escalabilidade de modelos base para humanoides é limitada pela escassez de dados robóticos. Embora dados maciços de egocentrismo humano ofereçam uma alternativa escalável, superar o abismo de incorporação cruzada permanece um desafio fundamental devido a incompatibilidades cinemáticas. Apresentamos o UniT (Tokenizador de Ação Latente Unificado via Ancoragem Visual), uma estrutura que estabelece uma linguagem física unificada para transferência humano-humanoide. Fundamentado na filosofia de que cinemáticas heterogêneas compartilham consequências visuais universais, o UniT emprega um mecanismo de reconstrução cruzada triplo: ações preveem visão para ancorar cinemática a resultados físicos, enquanto visão reconstrói ações para filtrar confundidores visuais irrelevantes. Simultaneamente, um ramo de fusão sinergiza essas modalidades purificadas em um espaço latente discreto compartilhado de intenções físicas independentes da incorporação. Validamos o UniT em dois paradigmas: 1) Aprendizado de Políticas (VLA-UniT): Ao prever esses tokens unificados, ele aproveita efetivamente dados humanos diversos para alcançar eficiência de dados state-of-the-art e generalização robusta fora da distribuição (OOD) em benchmark de simulação de humanoide e implantações no mundo real, demonstrando notavelmente transferência de tarefa zero-shot. 2) Modelagem do Mundo (WM-UniT): Ao alinhar dinâmicas de incorporação cruzada via tokens unificados como condições, ele realiza transferência direta de ação humano-humanoide. Este alinhamento garante que dados humanos sejam traduzidos perfeitamente em maior controlabilidade de ação para geração de vídeo de humanoide. Finalmente, ao induzir uma representação de incorporação cruzada altamente alinhada (verificado empiricamente por visualizações t-SNE revelando a convergência de características humanas e de humanoide em uma variedade compartilhada), o UniT oferece um caminho escalável para destilar vasto conhecimento humano em capacidades de humanoide de propósito geral.

StyleID: Um Conjunto de Dados e Métrica Consciente da Percepção para Reconhecimento de Identidade Facial Agnóstico à Estilização
StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Apr 23

ByKwan Yun, Changmin Lee, Ayeong Jeong, Youngseo Kim, Seungmi Lee, Junyong Noh

A estilização facial criativa visa representar retratos em diversos estilos visuais, como caricaturas, esboços e pinturas, mantendo a identidade reconhecível. No entanto, os codificadores de identidade atuais, geralmente treinados e calibrados em fotografias naturais, apresentam severa fragilidade sob estilização. Eles frequentemente confundem alterações na textura ou paleta de cores com desvio de identidade ou falham em detectar exagerações geométricas. Isso revela a falta de uma estrutura independente de estilo para avaliar e supervisionar a consistência da identidade em diferentes estilos e intensidades. Para preencher essa lacuna, introduzimos o StyleID, um conjunto de dados e estrutura de avaliação consciente da percepção humana para identidade facial sob estilização. O StyleID compreende dois conjuntos de dados: (i) StyleBench-H, um benchmark que captura julgamentos humanos de verificação de semelhança/diferença em estilizações baseadas em difusão e fluxo em múltiplas intensidades de estilo, e (ii) StyleBench-S, um conjunto de supervisão derivado de curvas psicométricas de força de reconhecimento obtidas através de experimentos controlados de escolha forçada entre duas alternativas (2AFC). Aproveitando o StyleBench-S, ajustamos finamente codificadores semânticos existentes para alinhar suas ordenações de similaridade com a percepção humana entre estilos e intensidades. Experimentos demonstram que nossos modelos calibrados produzem correlação significativamente maior com julgamentos humanos e robustez aprimorada para retratos desenhados por artistas fora do domínio. Todos os nossos conjuntos de dados, código e modelos pré-treinados estão publicamente disponíveis em https://kwanyun.github.io/StyleID_page/

Agentes de Decisão e Banco de Habilidades de LLM em Coevolução para Tarefas de Longo Horizonte
Co-Evolving LLM Decision and Skill Bank Agents for Long-Horizon Tasks

Apr 22

ByXiyang Wu, Zongxia Li, Guangyao Shi, Alexander Duffy, Tyler Marques, Matthew Lyle Olson, Tianyi Zhou, Dinesh Manocha

Ambientes interativos de longo horizonte são uma plataforma de teste para avaliar as capacidades de utilização de habilidades por agentes. Estes ambientes exigem raciocínio multi-etapa, o encadeamento de múltiplas habilidades ao longo de muitos intervalos de tempo e tomada de decisão robusta sob condições de recompensas atrasadas e observabilidade parcial. Os jogos são um bom ambiente de teste para avaliar a utilização de habilidades por agentes. Os Modelos de Linguagem de Grande Escala (LLMs) oferecem uma alternativa promissora como agentes jogadores, mas frequentemente lutam com uma tomada de decisão consistente em horizontes longos porque carecem de um mecanismo para descobrir, reter e reutilizar habilidades estruturadas entre episódios. Apresentamos o COSPLAY, uma estrutura de co-evolução na qual um agente de decisão LLM recupera habilidades de um banco de habilidades aprendível para orientar a tomada de ação, enquanto um pipeline de habilidades gerenciado por agente descobre habilidades reutilizáveis a partir das execuções não rotuladas do agente para formar um banco de habilidades. Nossa estrutura melhora tanto o agente de decisão para aprender uma melhor recuperação de habilidades e geração de ações, enquanto o agente do banco de habilidades extrai, refina e atualiza continuamente as habilidades juntamente com seus contratos. Experimentos em seis ambientes de jogo mostram que o COSPLAY com um modelo base de 8B alcança uma melhoria média de recompensa superior a 25,1 por cento contra quatro linhas de base de LLMs de fronteira em benchmarks de jogos para um jogador, mantendo-se competitivo em jogos de raciocínio social multijogador.

Vendo Rápido e Devagar: Aprendendo o Fluxo do Tempo em Vídeos
Seeing Fast and Slow: Learning the Flow of Time in Videos

Apr 23

ByYen-Siang Wu, Rundong Luo, Jingsen Zhu, Tao Tu, Ali Farhadi, Matthew Wallingford, Yu-Chiang Frank Wang, Steve Marschner, Wei-Chiu Ma

Como podemos determinar se um vídeo foi acelerado ou desacelerado? Como podemos gerar vídeos em diferentes velocidades? Embora os vídeos tenham sido centrais para a pesquisa moderna em visão computacional, pouca atenção foi dada à percepção e ao controle da passagem do tempo. Neste artigo, estudamos o tempo como um conceito visual aprendível e desenvolvemos modelos para raciocinar sobre e manipular o fluxo do tempo em vídeos. Primeiro, exploramos as pistas multimodais e a estrutura temporal naturalmente presentes nos vídeos para aprender, de maneira auto supervisionada, a detectar mudanças de velocidade e estimar a velocidade de reprodução. Em seguida, mostramos que esses modelos de raciocínio temporal aprendidos nos permitem curar o maior conjunto de dados de vídeo em câmera lenta até o momento, a partir de fontes ruidosas do mundo real. Essas filmagens em câmera lenta, geralmente gravadas por câmeras de alta velocidade, contêm detalhes temporais substancialmente mais ricos do que os vídeos padrão. Usando esses dados, desenvolvemos ainda mais modelos capazes de controle temporal, incluindo a geração de vídeo condicionada por velocidade, que produz movimento em uma velocidade de reprodução especificada, e a super-resolução temporal, que transforma vídeos borrados e de baixo FPS em sequências de alto FPS com detalhes temporais refinados. Nossos resultados destacam o tempo como uma dimensão perceptual manipulável no aprendizado de vídeo, abrindo portas para a geração de vídeo temporalmente controlável, a detecção forense temporal e, potencialmente, modelos de mundo mais ricos que compreendem como os eventos se desdobram ao longo do tempo.

VLAA-GUI: Saber Quando Parar, Recuperar e Buscar, Uma Estrutura Modular para Automação de Interface Gráfica
VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation

Apr 23

ByQijun Han, Haoqin Tu, Zijun Wang, Haoyue Dai, Yiyang Zhou, Nancy Lau, Alvaro A. Cardenas, Yuhui Xu, Ran Xu, Caiming Xiong, Zeyu Zheng, Huaxiu Yao, Yuyin Zhou, Cihang Xie

Os agentes autónomos de interface gráfica enfrentam dois desafios fundamentais: a paragem prematura, em que os agentes declaram sucesso antecipadamente sem evidências verificáveis, e os ciclos repetitivos, em que os agentes repetem as mesmas ações falhadas sem capacidade de recuperação. Apresentamos o VLAA-GUI, um framework modular de agentes para GUI construído em torno de três componentes integrados que orientam o sistema sobre quando Parar, Recuperar e Procurar. Primeiro, um Verificador de Completude obrigatório aplica critérios de sucesso observáveis na UI e verificação em cada passo final — com um verificador a nível de agente que interroga as alegações de conclusão com regras de decisão, rejeitando aquelas que carecem de evidência visual direta. Segundo, um Quebrador de Ciclos obrigatório fornece uma filtragem multi-nível: alternando o modo de interação após falhas repetidas, forçando mudanças de estratégia após a recorrência persistente do estado do ecrã e vinculando sinais de reflexão a mudanças de estratégia. Terceiro, um Agente de Pesquisa sob demanda procura online por fluxos de trabalho desconhecidos, consultando diretamente um LLM capacitado com capacidade de pesquisa e devolvendo os resultados em texto simples. Integramos adicionalmente um Agente de Codificação para ações intensivas em código e um Agente de Aterragem Semântica para uma baseação precisa de ações, ambos invocados sob demanda quando necessário. Avaliamos o VLAA-GUI em cinco *backbones* de topo, incluindo Opus 4.5, 4.6 e Gemini 3.1 Pro, em dois benchmarks com tarefas de Linux e Windows, alcançando o melhor desempenho em ambos (77,5% no OSWorld e 61,0% no WindowsAgentArena). Notavelmente, três dos cinco *backbones* superam o desempenho humano (72,4%) no OSWorld numa única passagem. Estudos de ablação mostram que todos os três componentes propostos melhoram consistentemente um *backbone* forte, enquanto um *backbone* mais fraco beneficia mais destas ferramentas quando o orçamento de passos é suficiente. Uma análise mais aprofundada também mostra que o Quebrador de Ciclos reduz quase para metade os passos desperdiçados por modelos propensos a ciclos.

Distilação de Políticas Híbrida para LLMs
Hybrid Policy Distillation for LLMs

Apr 22

ByWenhong Zhu, Ruobing Xie, Rui Wang, Pengfei Liu

A destilação de conhecimento (KD) é um paradigma poderoso para comprimir grandes modelos de linguagem (LLMs), cuja eficácia depende de escolhas interligadas de direção de divergência, estratégia de otimização e regime de dados. Desagregamos o projeto dos métodos de KD existentes e apresentamos uma visão unificada que estabelece conexões entre eles, reformulando a KD como um objetivo de verossimilhança logarítmica ponderada ao nível do *token*. Propomos ainda a Destilação de Política Híbrida (HPD), que integra as vantagens complementares do KL direto e reverso para equilibrar a cobertura de modos e a busca de modos, e combina dados *off-policy* com uma amostragem *on-policy* leve e aproximada. Validamos a HPD em raciocínio matemático de geração longa, bem como em tarefas de diálogo e código de geração curta, demonstrando melhoria na estabilidade de otimização, eficiência computacional e desempenho final em diversas famílias e escalas de modelos. O código relacionado a este trabalho está disponível em https://github.com/zwhong714/Hybrid-Policy-Distillation.

TingIS: Descoberta de Eventos de Risco em Tempo Real a partir de Incidentes de Clientes Ruidosos em Escala Empresarial
TingIS: Real-time Risk Event Discovery from Noisy Customer Incidents at Enterprise Scale

Apr 23

ByJun Wang, Ziyin Zhang, Rui Wang, Hang Yu, Peng Di, Rui Wang

A detecção e mitigação em tempo real de anomalias técnicas são críticas para serviços em grande escala baseados em nuvem nativa, onde mesmo minutos de indisponibilidade podem resultar em perdas financeiras massivas e diminuição da confiança dos utilizadores. Embora os incidentes reportados pelos clientes constituam um sinal vital para a descoberta de riscos não captados pela monitorização, a extração de informações acionáveis a partir destes dados permanece um desafio devido ao ruído extremo, alta taxa de transferência e complexidade semântica das diversas linhas de negócio. Neste artigo, apresentamos o TingIS, um sistema de ponta a ponta concebido para a descoberta de incidentes de nível empresarial. O núcleo do TingIS é um motor de ligação de eventos em múltiplos estágios que combina técnicas de indexação eficientes com Modelos de Linguagem de Grande Escala (LLMs) para tomar decisões fundamentadas sobre a fusão de eventos, permitindo a extração estável de incidentes acionáveis a partir de um pequeno número de descrições diversificadas dos utilizadores. Este motor é complementado por um mecanismo de encaminhamento em cascata para atribuição precisa do negócio e por um pipeline de redução de ruído multidimensional que integra conhecimento de domínio, padrões estatísticos e filtragem comportamental. Implementado num ambiente de produção que processa um pico de mais de 2.000 mensagens por minuto e 300.000 mensagens por dia, o TingIS alcança uma latência P90 de alerta de 3,5 minutos e uma taxa de descoberta de 95% para incidentes de alta prioridade. *Benchmarks* construídos a partir de dados do mundo real demonstram que o TingIS supera significativamente os métodos de base em precisão de encaminhamento, qualidade de agrupamento e Relação Sinal-Ruído.

EditCrafter: Edição de Imagens de Alta Resolução sem Ajustes via Modelo de Difusão Pré-treinado
EditCrafter: Tuning-free High-Resolution Image Editing via Pretrained Diffusion Model

Apr 11

ByKunho Kim, Sumin Seo, Yongjun Cho, Hyungjin Chung

Propomos o EditCrafter, um método de edição de imagens de alta resolução que opera sem ajustes, aproveitando modelos de difusão texto-para-imagem (T2I) pré-treinados para processar imagens em resoluções significativamente superiores às utilizadas durante o treinamento. Aproveitar os *priors* generativos de modelos de difusão T2I de grande escala possibilita o desenvolvimento de uma ampla gama de novas aplicações de geração e edição. Embora inúmeros métodos de edição de imagem tenham sido propostos com base em modelos de difusão e exibam resultados de edição de alta qualidade, eles são difíceis de aplicar a imagens com proporções de aspecto arbitrárias ou resoluções mais altas, pois funcionam apenas nas resoluções de treinamento (512x512 ou 1024x1024). A aplicação ingênua de edição baseada em *patches* falha, resultando em estruturas de objetos irreais e repetição. Para enfrentar esses desafios, introduzimos o EditCrafter, um *pipeline* de edição simples, porém eficaz. O EditCrafter opera realizando primeiro uma inversão em blocos (*tiled inversion*), que preserva a identidade original da imagem de alta resolução de entrada. Propomos ainda um guiamento *classifier-free* com restrição de variedade e amortecimento de ruído (NDCFG++), que é adaptado para a edição de imagens de alta resolução a partir do latente invertido. Nossos experimentos mostram que o nosso EditCrafter pode alcançar resultados de edição impressionantes em várias resoluções sem *fine-tuning* e otimização.

Desdobramento de Contexto em Modelos Omni
Context Unrolling in Omni Models

Apr 23

ByCeyuan Yang, Zhijie Lin, Yang Zhao, Fei Xiao, Hao He, Qi Zhao, Chaorui Deng, Kunchang Li, Zihan Ding, Yuwei Guo, Fuyun Wang, Fangqi Zhu, Xiaonan Nie, Shenhan Zhu, Shanchuan Lin, Hongsheng Li, Weilin Huang, Guang Shi, Haoqi Fan

Apresentamos o Omni, um modelo multimodal unificado treinado nativamente em diversas modalidades, incluindo texto, imagens, vídeos, geometria 3D e representações ocultas. Descobrimos que esse treinamento possibilita o Desdobramento Contextual, onde o modelo raciocina explicitamente através de múltiplas representações modais antes de produzir previsões. Esse processo permite ao modelo agregar informações complementares entre modalidades heterogêneas, facilitando uma aproximação mais fiel da variedade de conhecimento multimodal compartilhada e melhorando a fidelidade do raciocínio subsequente. Como resultado, o Omni alcança desempenho sólido em benchmarks de geração e compreensão multimodal, demonstrando capacidades avançadas de raciocínio multimodal, incluindo geração contextual de texto, imagem, vídeo e geometria 3D.

Vista4D: Regravação de Vídeo com Nuvens de Pontos 4D
Vista4D: Video Reshooting with 4D Point Clouds

Apr 23

ByKuan Heng Lin, Zhizheng Liu, Pablo Salamanca, Yash Kant, Ryan Burgert, Yuancheng Xu, Koichi Namekata, Yiwei Zhao, Bolei Zhou, Micah Goldblum, Paul Debevec, Ning Yu

Apresentamos o Vista4D, uma estrutura robusta e flexível para regravação de vídeos que ancora o vídeo de entrada e as câmeras-alvo em uma nuvem de pontos 4D. Especificamente, dado um vídeo de entrada, nosso método ressintetiza a cena com a mesma dinâmica a partir de uma trajetória e ponto de vista de câmera diferentes. Os métodos existentes de regravação de vídeo frequentemente lutam com artefatos de estimativa de profundidade em vídeos dinâmicos do mundo real, ao mesmo tempo que falham em preservar a aparência do conteúdo e em manter um controle preciso da câmera para novas trajetórias desafiadoras. Construímos uma representação de nuvem de pontos ancorada em 4D com segmentação de pixels estáticos e reconstrução 4D para preservar explicitamente o conteúdo visualizado e fornecer sinais ricos da câmera, e treinamos com dados dinâmicos multivia reconstruídos para robustez contra artefatos da nuvem de pontos durante a inferência no mundo real. Nossos resultados demonstram uma consistência 4D, controle de câmera e qualidade visual melhorados em comparação com as linhas de base state-of-the-art sob uma variedade de vídeos e caminhos de câmera. Além disso, nosso método generaliza para aplicações do mundo real, como expansão de cena dinâmica e recomposição de cena 4D. Consulte nossa página do projeto para resultados, código e modelos: https://eyeline-labs.github.io/Vista4D.

UniGenDet: Uma Estrutura Unificada Generativa-Discriminativa para Geração Co-Evolucionária de Imagens e Detecção de Imagens Geradas
UniGenDet: A Unified Generative-Discriminative Framework for Co-Evolutionary Image Generation and Generated Image Detection

Apr 23

ByYanran Zhang, Wenzhao Zheng, Yifei Li, Bingyao Yu, Yu Zheng, Lei Chen, Jiwen Lu, Jie Zhou

Nos últimos anos, foram feitos progressos significativos tanto na geração de imagens quanto na detecção de imagens geradas. Apesar do seu desenvolvimento rápido, mas em grande parte independente, essas duas áreas evoluíram com paradigmas arquitetônicos distintos: a primeira baseia-se predominantemente em redes generativas, enquanto a segunda privilegia estruturas discriminativas. Uma tendência recente em ambos os domínios é o uso de informação adversarial para melhorar o desempenho, revelando um potencial de sinergia. Contudo, a significativa divergência arquitetónica entre elas apresenta desafios consideráveis. Afastando-nos de abordagens anteriores, propomos o UniGenDet: uma estrutura unificada generativa-discriminativa para a Geração de imagens e a Deteção de imagens geradas em co-evolução. Para colmatar a lacuna de tarefas, concebemos um mecanismo de autoatenção multimodal simbiótico e um algoritmo de afinação unificado. Esta sinergia permite que a tarefa de geração melhore a interpretabilidade da identificação de autenticidade, enquanto os critérios de autenticidade orientam a criação de imagens com maior fidelidade. Além disso, introduzimos um mecanismo de alinhamento generativo informado por detetor para facilitar a troca de informações sem interrupções. Experiências extensas em múltiplos conjuntos de dados demonstram que o nosso método atinge um desempenho de ponta. Código: https://github.com/Zhangyr2022/UniGenDet{https://github.com/Zhangyr2022/UniGenDet}.

WebGen-R1: Incentivando Modelos de Linguagem de Grande Porte a Gerar Websites Funcionais e Estéticos com Aprendizado por Reforço
WebGen-R1: Incentivizing Large Language Models to Generate Functional and Aesthetic Websites with Reinforcement Learning

Apr 22

ByJuyong Jiang, Chenglin Cai, Chansung Park, Jiasi Shen, Sunghun Kim, Jianguo Li, Yue Wang

Embora os Modelos de Língua Grande (LLMs) se destaquem na geração de código a nível de função, tarefas a nível de projeto, como a geração de sites multi-página funcionais e visualmente estéticos, permanecem altamente desafiadoras. Os trabalhos existentes frequentemente limitam-se a sites estáticos de página única, enquanto os frameworks agentes normalmente dependem de execução multi-turno com modelos proprietários, resultando em custos substanciais de tokens, alta latência e integração frágil. Treinar um pequeno LLM de ponta a ponta com aprendizado por reforço (RL) é uma alternativa promissora, mas enfrenta um gargalo crítico na criação de recompensas confiáveis e computacionalmente viáveis para a geração de sites. Diferente de tarefas de codificação de arquivo único que podem ser verificadas por testes unitários, a geração de sites requer a avaliação de estética inerentemente subjetiva, interações entre páginas e correção funcional. Para isso, propomos o WebGen-R1, um framework RL de ponta a ponta desenvolvido para geração de sites a nível de projeto. Primeiro, introduzimos um paradigma de geração estruturada orientada por scaffold que restringe o grande espaço de ação aberto e preserva a integridade arquitetônica. Em seguida, projetamos uma nova recompensa multimodal em cascata que acopla perfeitamente garantias estruturais com feedback funcional baseado em execução e supervisão estética baseada em visão. Experimentos extensivos demonstram que nosso WebGen-R1 transforma substancialmente um modelo base de 7B, que gerava sites quase não funcionais, em um produtor de sites multi-página implantáveis e esteticamente alinhados. Notavelmente, nosso WebGen-R1 não apenas supera consistentemente modelos de código aberto altamente escalados (até 72B), mas também rivaliza com o estado da arte DeepSeek-R1 (671B) em sucesso funcional, enquanto o supera substancialmente em renderização válida e alinhamento estético. Esses resultados posicionam o WebGen-R1 como um caminho viável para escalar pequenos modelos abertos da geração de código a nível de função para a geração de aplicações web a nível de projeto.

Coevolução de Representações na Difusão Conjunta de Imagem-Característica
Coevolving Representations in Joint Image-Feature Diffusion

Apr 19

ByTheodoros Kouzelis, Spyros Gidaris, Nikos Komodakis

A modelagem generativa conjunta de imagem e características surgiu recentemente como uma estratégia eficaz para melhorar o treinamento de modelos de difusão, ao acoplar latentes de VAE de baixo nível com características semânticas de alto nível extraídas de codificadores visuais pré-treinados. No entanto, as abordagens existentes dependem de um espaço de representação fixo, construído independentemente do objetivo generativo e mantido inalterado durante o treinamento. Argumentamos que o espaço de representação que orienta a difusão deve, ele próprio, adaptar-se à tarefa generativa. Para esse fim, propomos a Difusão com Representação Coevolutiva (CoReDi), uma estrutura na qual o espaço de representação semântica evolui durante o treinamento, aprendendo uma projeção linear leve em conjunto com o modelo de difusão. Embora a otimização ingênua desta projeção leve a soluções degeneradas, demonstramos que uma coevolução estável pode ser alcançada através de uma combinação de alvos de *stop-gradient*, normalização e regularização direcionada que previne o colapso das características. Esta formulação permite que o espaço semântico se especialize progressivamente para as necessidades da síntese de imagens, melhorando sua complementaridade com os latentes de imagem. Aplicamos o CoReDi tanto à difusão latente com VAE quanto à difusão no espaço de pixels, demonstrando que representações semânticas adaptativas melhoram a modelagem generativa em ambos os cenários. Experimentos mostram que o CoReDi alcança convergência mais rápida e qualidade amostral superior em comparação com modelos de difusão conjunta que operam em espaços de representação fixos.

Confiar, mas Verificar: Apresentando o DAVinCI -- Uma Estrutura para Atribuição Dupla e Verificação na Inferência de Afirmações para Modelos de Linguagem
Trust but Verify: Introducing DAVinCI -- A Framework for Dual Attribution and Verification in Claim Inference for Language Models

Apr 23

ByVipula Rawte, Ryan Rossi, Franck Dernoncourt, Nedim Lipka

Os Grandes Modelos de Linguagem (LLMs) demonstraram notável fluência e versatilidade numa vasta gama de tarefas de PLN, mas continuam propensos a imprecisões factuais e alucinações. Esta limitação representa riscos significativos em domínios de alta responsabilidade, como saúde, direito e comunicação científica, onde a confiança e a verificabilidade são primordiais. Neste artigo, introduzimos o DAVinCI - uma estrutura de Dupla Atribuição e Verificação concebida para melhorar a fiabilidade factual e a interpretabilidade das saídas dos LLMs. O DAVinCI opera em duas fases: (i) atribui afirmações geradas a componentes internos do modelo e a fontes externas; (ii) verifica cada afirmação utilizando raciocínio baseado em *entailment* e calibração de confiança. Avaliamos o DAVinCI em vários conjuntos de dados, incluindo FEVER e CLIMATE-FEVER, e comparamos o seu desempenho com linhas de base padrão de apenas verificação. Os nossos resultados mostram que o DAVinCI melhora significativamente a precisão de classificação, a precisão de atribuição, o *recall* e a pontuação F1 em 5-20%. Através de um extenso estudo de ablação, isolamos as contribuições da seleção de intervalos de evidência, dos limiares de recalibração e da qualidade da recuperação de informação. Também disponibilizamos uma implementação modular do DAVinCI que pode ser integrada em *pipelines* existentes de LLMs. Ao unir a atribuição e a verificação, o DAVinCI oferece um caminho escalável para sistemas de IA auditáveis e confiáveis. Este trabalho contribui para o esforço crescente de tornar os LLMs não apenas poderosos, mas também responsáveis.

Adaptação em Tempo de Teste para Modelos de Base de EEG: Um Estudo Sistemático sob Mudanças de Distribuição do Mundo Real
Test-Time Adaptation for EEG Foundation Models: A Systematic Study under Real-World Distribution Shifts

Apr 18

ByGabriel Jason Lee, Jathurshan Pradeepkumar, Jimeng Sun

Os modelos de base de eletroencefalografia (EEG) demonstraram um forte potencial para aprender representações generalizáveis a partir de dados neurais em larga escala. No entanto, a sua implantação clínica é dificultada por desvios de distribuição entre contextos clínicos, dispositivos e populações. A adaptação em tempo de teste (TTA) oferece uma solução promissora, permitindo que os modelos se adaptem a dados-alvo não rotulados durante a inferência, sem acesso aos dados de origem – uma propriedade valiosa em contextos de saúde limitados por regulamentações de privacidade e dados rotulados escassos. Contudo, a sua eficácia para EEG permanece amplamente inexplorada. Neste trabalho, apresentamos o NeuroAdapt-Bench, um benchmark sistemático para avaliar métodos de adaptação em tempo de teste em modelos de base de EEG sob desvios de distribuição realistas. Avaliamos abordagens de TTA representativas de outros domínios em múltiplos modelos de base pré-treinados, diversas tarefas subsequentes e conjuntos de dados heterogéneos que abrangem desvios dentro da distribuição, fora da distribuição e mudanças extremas de modalidade (por exemplo, Ear-EEG). Os nossos resultados mostram que os métodos padrão de TTA produzem ganhos inconsistentes e frequentemente degradam o desempenho, sendo as abordagens baseadas em gradiente particularmente propensas a uma degradação severa. Em contraste, os métodos livres de otimização demonstram maior estabilidade e melhorias mais confiáveis. Estas descobertas destacam as limitações das técnicas de TTA existentes em EEG, fornecem orientações para o desenvolvimento futuro e sublinham a necessidade de estratégias de adaptação específicas para o domínio.

Aprendizagem de Representação Explicável e Desenredada para Atribuição de Autoria Generalizável na Era da IA Generativa
Explainable Disentangled Representation Learning for Generalizable Authorship Attribution in the Era of Generative AI

Apr 23

ByHieu Man, Van-Cuong Pham, Nghia Trung Ngo, Franck Dernoncourt, Thien Huu Nguyen

A aprendizagem de representações robustas do estilo autoral é crucial para a atribuição de autoria e a deteção de texto gerado por IA. No entanto, os métodos existentes frequentemente lutam com o entrelaçamento conteúdo-estilo, em que os modelos aprendem correlações espúrias entre os estilos de escrita dos autores e os tópicos, levando a uma fraca generalização entre domínios. Para enfrentar este desafio, propomos o *Explainable Authorship Variational Autoencoder* (EAVAE), uma nova estrutura que desembaraça explicitamente o estilo do conteúdo através de uma separação arquitetónica por design. O EAVAE pré-treina primeiro codificadores de estilo usando aprendizagem contrastiva supervisionada em dados de autoria diversos, e depois afina a arquitetura com um *Variational Autoencoder* (VAE) utilizando codificadores separados para as representações de estilo e conteúdo. O desembaraçamento é imposto através de um novo discriminador que não só distingue se pares de representações de estilo/conteúdo pertencem ao mesmo autor ou a autores/fontes de conteúdo diferentes, mas também gera uma explicação em linguagem natural para a sua decisão, mitigando simultaneamente informações de confusão e melhorando a interpretabilidade. Experiências extensivas demonstram a eficácia do EAVAE. Na atribuição de autoria, alcançámos um desempenho de ponta em vários conjuntos de dados, incluindo *Amazon Reviews*, PAN21 e HRS. Para a deteção de texto gerado por IA, o EAVAE sobressai na aprendizagem *few-shot* sobre o conjunto de dados M4. Os repositórios de código e dados estão disponíveis online: https://github.com/hieum98/avae e https://huggingface.co/collections/Hieuman/document-level-authorship-datasets.

Modelos de Mistura de Especialistas com Extensão Temporal
Temporally Extended Mixture-of-Experts Models

Apr 22

ByZeyu Shen, Peter Henderson

Os modelos de Mistura de Especialistas (MoE), agora populares para escalar a capacidade mantendo a velocidade de inferência fixa, alternam especialistas em quase todos os tokens. Quando um modelo excede a memória disponível da GPU, essa alternância frequente pode tornar ineficazes otimizações como descarregamento e pré-busca de dados. Defendemos que a estrutura de opções no aprendizado por reforço é ideal para resolver esse problema e propomos camadas de mistura de especialistas com extensão temporal. Com base na estrutura option-critic com custos de deliberação, adicionamos um controlador a cada camada que aprende quando alternar conjuntos de especialistas e quais carregar. Ao aplicar isso ao gpt-oss-20b com adaptadores de baixo posto e uma recompensa de auto-distilação, nosso método reduz as taxas de alternância de mais de 50% para menos de 5%, mantendo até 90% da precisão do modelo base em MATH, MMLU e MMMLU. Isso demonstra que mesmo modelos pré-treinados existentes podem ser convertidos em MoEs temporalmente estendidos com treinamento leve, onde o custo de deliberação permite aos treinadores negociar taxas de alternância versus capacidade. Esperamos que isso abra um caminho fundamentado na estrutura de opções para servir modelos de forma eficiente em memória e para aprendizado contínuo em modelos MoE em constante crescimento.

Compreensão de Movimento Humano sem Codificação por meio de Descrições Estruturadas de Movimento
Encoder-Free Human Motion Understanding via Structured Motion Descriptions

Apr 23

ByYao Zhang, Zhuchenyang Liu, Thomas Ploetz, Yu Xiao

O conhecimento mundial e as capacidades de raciocínio dos grandes modelos de linguagem (LLMs) baseados em texto estão avançando rapidamente, porém as abordagens atuais para compreensão de movimento humano, incluindo resposta a perguntas e legendagem sobre movimento, ainda não exploraram plenamente essas capacidades. Os métodos existentes baseados em LLMs geralmente aprendem o alinhamento movimento-linguagem através de codificadores dedicados que projetam características do movimento no espaço de incorporação do LLM, permanecendo limitados pela representação e alinhamento cross-modal. Inspirados pela análise biomecânica, onde ângulos articulares e cinemática de partes corporais há muito servem como uma linguagem descritiva precisa para o movimento humano, propomos a Descrição Estruturada de Movimento (SMD), uma abordagem determinística baseada em regras que converte sequências de posições articulares em descrições em linguagem natural estruturadas de ângulos articulares, movimentos de partes do corpo e trajetória global. Ao representar movimento como texto, o SMD permite que os LLMs apliquem seu conhecimento pré-treinado sobre partes do corpo, direções espaciais e semântica de movimento diretamente ao raciocínio sobre movimento, sem exigir codificadores aprendidos ou módulos de alinhamento. Demonstramos que esta abordagem supera os resultados mais avançados tanto em resposta a perguntas sobre movimento (66,7% no BABEL-QA, 90,1% no HuMMan-QA) quanto em legendagem de movimento (R@1 de 0,584, CIDEr de 53,16 no HumanML3D), ultrapassando todos os métodos anteriores. O SMD oferece ainda benefícios práticos: a mesma entrada de texto funciona em diferentes LLMs com apenas uma adaptação leve LoRA (validada em 8 LLMs de 6 famílias de modelos), e sua representação legível por humanos permite uma análise de atenção interpretável sobre as descrições de movimento. Código, dados e adaptadores LoRA pré-treinados estão disponíveis em https://yaozhang182.github.io/motion-smd/.

PersonalAI: Uma Comparação Sistemática de Abordagens de Armazenamento e Recuperação em Grafos de Conhecimento para Agentes de LLM Personalizados
PersonalAI: A Systematic Comparison of Knowledge Graph Storage and Retrieval Approaches for Personalized LLM agents

Apr 12

ByMikhail Menschikov, Dmitry Evseev, Victoria Dochkina, Ruslan Kostoev, Ilia Perepechkin, Petr Anokhin, Nikita Semenov, Evgeny Burnaev

A personalização de modelos de linguagem através da incorporação eficaz do histórico de interações do usuário permanece um desafio central no desenvolvimento de sistemas de IA adaptativos. Embora os grandes modelos de linguagem (LLMs), combinados com a Geração Aumentada por Recuperação (RAG), tenham melhorado a precisão factual, eles frequentemente carecem de memória estruturada e falham em escalar em interações complexas e de longo prazo. Para resolver isso, propomos uma estrutura flexível de memória externa baseada em um grafo de conhecimento que é construído e atualizado automaticamente pelo LLM. Com base na arquitetura AriGraph, introduzimos um novo design híbrido de grafo que suporta tanto arestas padrão quanto dois tipos de hiperarestas, permitindo representações semânticas e temporais ricas e dinâmicas. Nossa estrutura também suporta diversos mecanismos de recuperação, incluindo travessia A*, WaterCircles, busca em feixe e métodos híbridos, tornando-a adaptável a diferentes conjuntos de dados e capacidades de LLM. Avaliamos nosso sistema nos benchmarks TriviaQA, HotpotQA e DiaASQ e demonstramos que diferentes configurações de memória e recuperação produzem desempenho ideal dependendo da tarefa. Adicionalmente, estendemos o benchmark DiaASQ com anotações temporais e declarações internamente contraditórias, mostrando que nosso sistema permanece robusto e eficaz no gerenciamento de dependências temporais e no raciocínio consciente do contexto.

3D-VCD: Mitigação de Alucinações em Agentes Incorporados 3D-LLM através de Decodificação Visual Contrastiva
3D-VCD: Hallucination Mitigation in 3D-LLM Embodied Agents through Visual Contrastive Decoding

Apr 9

ByMakanjuola Ogunleye, Eman Abdelrahman, Ismini Lourentzou

Os modelos multimodais de grande escala são cada vez mais utilizados como núcleo de raciocínio de agentes incorporados que operam em ambientes 3D, no entanto, eles permanecem propensos a alucinações que podem produzir decisões inseguras e sem fundamento. Os métodos existentes de mitigação de alucinações em tempo de inferência visam principalmente configurações de linguagem visual 2D e não se transferem para o raciocínio incorporado em 3D, onde as falhas surgem da presença de objetos, do layout espacial e da fundamentação geométrica, e não de inconsistências a nível de pixel. Apresentamos o 3D-VCD, o primeiro *framework* de decodificação contrastiva visual em tempo de inferência para mitigação de alucinações em agentes incorporados 3D. O 3D-VCD constrói um grafo de cena 3D distorcido aplicando perturbações semânticas e geométricas a representações centradas em objetos, como substituições de categoria e corrupção de coordenadas ou extensões. Ao contrastar previsões sob os contextos 3D originais e distorcidos, nosso método suprime *tokens* que são insensíveis a evidências fundamentadas da cena e, portanto, provavelmente impulsionados por *priors* linguísticos. Avaliamos o 3D-VCD nos *benchmarks* 3D-POPE e HEAL e mostramos que ele melhora consistentemente o raciocínio fundamentado sem qualquer retreinamento, estabelecendo a decodificação contrastiva em tempo de inferência sobre representações 3D estruturadas como uma rota eficaz e prática para uma inteligência incorporada mais confiável.