HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

21 papers found

GRAPE: Generalização de Política de Robôs por Alinhamento de Preferências
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Apesar dos avanços recentes dos modelos visão-linguagem-ação (VLA) em uma variedade de tarefas de robótica, eles sofrem de questões críticas, como baixa generalização para tarefas não vistas, devido à sua dependência exclusiva da clonagem de comportamento a partir de execuções bem-sucedidas. Além disso, eles são tipicamente ajustados para replicar demonstrações coletadas por especialistas em diferentes configurações, introduzindo viés de distribuição e limitando sua adaptabilidade a diversos objetivos de manipulação, como eficiência, segurança e conclusão da tarefa. Para preencher essa lacuna, introduzimos o GRAPE: Generalizando Política de Robô via Alinhamento de Preferência. Especificamente, o GRAPE alinha os VLA em um nível de trajetória e modela implicitamente a recompensa a partir de tentativas bem-sucedidas e fracassadas para impulsionar a generalização para diversas tarefas. Além disso, o GRAPE divide tarefas de manipulação complexas em estágios independentes e guia automaticamente a modelagem de preferência por meio de restrições espaço-temporais personalizadas com pontos-chave propostos por um grande modelo visão-linguagem. Notavelmente, essas restrições são flexíveis e podem ser personalizadas para alinhar o modelo com objetivos variados, como segurança, eficiência ou sucesso da tarefa. Avaliamos o GRAPE em uma ampla variedade de tarefas em ambientes reais e simulados. Os resultados experimentais demonstram que o GRAPE melhora o desempenho dos modelos VLA de última geração, aumentando as taxas de sucesso em tarefas de manipulação dentro e fora do domínio em 51,79% e 60,36%, respectivamente. Além disso, o GRAPE pode ser alinhado com vários objetivos, como segurança e eficiência, reduzindo as taxas de colisão em 44,31% e o comprimento do passo de execução em 11,15%, respectivamente. Todo o código, modelos e dados estão disponíveis em https://grape-vla.github.io/

Profundidade de Vídeo sem Modelos de Vídeo
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

A estimativa de profundidade de vídeo eleva clipes de vídeo monocular para 3D inferindo profundidade densa em cada quadro. Avanços recentes na estimativa de profundidade de imagem única, impulsionados pelo surgimento de grandes modelos de base e pelo uso de dados de treinamento sintéticos, têm alimentado um interesse renovado na profundidade de vídeo. No entanto, aplicar ingenuamente um estimador de profundidade de imagem única a cada quadro de um vídeo desconsidera a continuidade temporal, o que não apenas resulta em cintilação, mas também pode falhar quando o movimento da câmera causa mudanças repentinas no intervalo de profundidade. Uma solução óbvia e fundamentada seria construir em cima de modelos de base de vídeo, mas estes têm suas próprias limitações; incluindo treinamento e inferência caros, consistência 3D imperfeita e rotinas de costura para as saídas de comprimento fixo (curto). Damos um passo atrás e demonstramos como transformar um modelo de difusão latente de imagem única (LDM) em um estimador de profundidade de vídeo de ponta. Nosso modelo, que chamamos de RollingDepth, tem dois ingredientes principais: (i) um estimador de profundidade multi-quadro derivado de um LDM de imagem única e que mapeia trechos de vídeo muito curtos (tipicamente triplos de quadros) para trechos de profundidade. (ii) um algoritmo robusto de registro baseado em otimização que monta de forma ideal trechos de profundidade amostrados em diferentes taxas de quadros de volta a um vídeo consistente. O RollingDepth é capaz de lidar eficientemente com vídeos longos com centenas de quadros e fornece vídeos de profundidade mais precisos do que tanto estimadores de profundidade de vídeo dedicados quanto modelos de quadro único de alto desempenho. Página do projeto: rollingdepth.github.io.

Para Além de Exemplos: Paradigma de Raciocínio Automatizado em Alto Nível em Aprendizado Contextual via MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

A Aprendizagem em Contexto (ICL) permite que grandes modelos de linguagem (LLMs) lidem com tarefas subsequentes por meio de instruções sofisticadas e demonstrações de alta qualidade. No entanto, esse paradigma tradicional de ICL mostra limitações ao enfrentar tarefas complexas de raciocínio matemático, principalmente devido à sua forte dependência da qualidade dos exemplos e à necessidade de intervenção humana em cenários desafiadores. Para lidar com essas limitações, este artigo apresenta o HiAR-ICL, um paradigma de Raciocínio Automatizado em Alto Nível na ICL que muda o foco de exemplos específicos para padrões de pensamento abstrato, ampliando o conceito convencional de contexto na ICL. O HiAR-ICL introduz cinco ações de raciocínio atômico como componentes fundamentais para a construção de padrões em cadeia. Utilizando a Busca em Árvore de Monte Carlo, exploramos caminhos de raciocínio e construímos cartões de pensamento para orientar inferências subsequentes. Em seguida, desenvolvemos um framework de complexidade cognitiva que corresponde dinamicamente problemas com cartões de pensamento apropriados. Resultados experimentais demonstram a eficácia do HiAR-ICL, alcançando uma precisão de ponta (79,6%) no benchmark MATH com Qwen2.5-7B-Instruct, superando o GPT-4o (76,6%) e o Claude 3.5 (71,1%).

Sobre o Pós-Treinamento Específico de Domínio para Modelos de Linguagem Multimodais de Grande Escala
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Os últimos anos testemunharam o rápido desenvolvimento de modelos de linguagem multimodais grandes gerais (MLLMs). No entanto, a adaptação de MLLMs gerais para domínios específicos, como campos científicos e aplicações industriais, ainda é menos explorada. Este artigo investiga sistematicamente a adaptação de domínio de MLLMs por meio de pós-treinamento, focando na síntese de dados, nos pipelines de treinamento e na avaliação de tarefas. (1) Síntese de Dados: Utilizando modelos de código aberto, desenvolvemos um sintetizador de instruções visuais que gera efetivamente diversas tarefas de instruções visuais a partir de pares de imagem-legenda específicos do domínio. Nossas tarefas sintéticas superam aquelas geradas por regras manuais, GPT-4 e GPT-4V na melhoria do desempenho específico do domínio de MLLMs. (2) Pipeline de Treinamento: Enquanto o treinamento em duas etapas - inicialmente em pares de imagem-legenda seguido por tarefas de instruções visuais - é comumente adotado para desenvolver MLLMs gerais, aplicamos um pipeline de treinamento em uma única etapa para aumentar a diversidade de tarefas para o pós-treinamento específico do domínio. (3) Avaliação de Tarefas: Realizamos experimentos em dois domínios, biomedicina e alimentos, pós-treinando MLLMs de diferentes fontes e escalas (por exemplo, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), e então avaliando o desempenho do MLLM em várias tarefas específicas do domínio. Para apoiar pesquisas adicionais na adaptação de domínio de MLLM, disponibilizaremos nossas implementações em código aberto.

Relatório Técnico Yi-Lightning
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

Este relatório técnico apresenta o Yi-Lightning, nosso mais recente modelo de linguagem grande (LLM) carro-chefe. Ele alcança um desempenho excepcional, classificando-se em 6º lugar no Chatbot Arena, com resultados particularmente fortes (2º a 4º lugar) em categorias especializadas, incluindo Chinês, Matemática, Codificação e Desafios Complexos. O Yi-Lightning aproveita uma arquitetura aprimorada de Mistura de Especialistas (MoE), apresentando segmentação avançada de especialistas e mecanismos de roteamento, juntamente com técnicas otimizadas de armazenamento em cache KV. Nosso processo de desenvolvimento abrange pré-treinamento abrangente, ajuste fino supervisionado (SFT) e aprendizado por reforço a partir do feedback humano (RLHF), onde elaboramos estratégias deliberadas para treinamento em múltiplos estágios, construção de dados sintéticos e modelagem de recompensas. Além disso, implementamos o RAISE (Responsible AI Safety Engine), um framework de quatro componentes para lidar com questões de segurança em todas as fases de pré-treinamento, pós-treinamento e operação. Potencializado por nossa infraestrutura de supercomputação escalável, todas essas inovações reduzem substancialmente os custos de treinamento, implantação e inferência, mantendo altos padrões de desempenho. Com avaliações adicionais em benchmarks acadêmicos públicos, o Yi-Lightning demonstra desempenho competitivo em relação aos LLMs de primeira linha, enquanto observamos uma disparidade significativa entre os resultados dos benchmarks tradicionais e estáticos e as preferências humanas dinâmicas do mundo real. Essa observação suscita uma reavaliação crítica da utilidade dos benchmarks convencionais na orientação do desenvolvimento de sistemas de IA mais inteligentes e poderosos para aplicações práticas. O Yi-Lightning está agora disponível por meio de nossa plataforma de desenvolvedores em https://platform.lingyiwanwu.com.

Orientação de Saltos Espaço-Temporais para Amostragem Aprimorada de Difusão de Vídeo
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

Os modelos de difusão surgiram como uma ferramenta poderosa para gerar imagens, vídeos e conteúdo 3D de alta qualidade. Enquanto técnicas de orientação de amostragem como CFG melhoram a qualidade, elas reduzem a diversidade e o movimento. A Autoguidance mitiga esses problemas, mas exige treinamento adicional de um modelo fraco, limitando sua praticidade para modelos em grande escala. Neste trabalho, apresentamos o Spatiotemporal Skip Guidance (STG), um método simples de orientação de amostragem sem treinamento para aprimorar modelos de difusão de vídeo baseados em transformadores. O STG emprega um modelo fraco implícito por meio de auto-perturbação, evitando a necessidade de modelos externos ou treinamento adicional. Ao pular seletivamente camadas espaço-temporais, o STG produz uma versão alinhada e degradada do modelo original para aumentar a qualidade da amostra sem comprometer a diversidade ou o grau dinâmico. Nossas contribuições incluem: (1) a introdução do STG como uma técnica de orientação eficiente e de alto desempenho para modelos de difusão de vídeo, (2) a eliminação da necessidade de modelos auxiliares ao simular um modelo fraco por meio do pulo de camadas e (3) garantir orientação aprimorada de qualidade sem comprometer a diversidade ou dinâmica da amostra, ao contrário do CFG. Para resultados adicionais, visite https://junhahyung.github.io/STGuidance.

Pensamento Reverso Torna LLMs em Raciocinadores Mais Fortes
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

O pensamento reverso desempenha um papel crucial no raciocínio humano. Os humanos podem raciocinar não apenas de um problema para uma solução, mas também ao contrário, ou seja, começar a partir da solução e raciocinar em direção ao problema. Isso frequentemente melhora o desempenho geral do raciocínio, pois permite verificações de consistência entre seu pensamento direto e reverso. Para capacitar Modelos de Linguagem Grandes (LLMs) a realizar o pensamento reverso, introduzimos o Pensamento Aprimorado Reverso (RevThink), um framework composto por aumento de dados e objetivos de aprendizagem. No RevThink, aumentamos o conjunto de dados coletando raciocínio direto-reverso estruturado de um modelo professor, composto por: (1) a pergunta original, (2) raciocínio direto, (3) pergunta reversa e (4) raciocínio reverso. Em seguida, empregamos três objetivos para treinar um modelo aluno menor de forma de aprendizado multi-tarefa: (a) gerar raciocínio direto a partir de uma pergunta, (b) gerar uma pergunta reversa a partir de uma pergunta e (c) gerar raciocínio reverso a partir da pergunta reversa. Experimentos em 12 conjuntos de dados abrangendo raciocínio de senso comum, matemática e lógica mostram uma melhoria média de 13,53% em relação ao desempenho zero-shot do modelo aluno e uma melhoria de 6,84% em relação às melhores bases de destilação de conhecimento. Além disso, nosso método demonstra eficiência de amostragem - usando apenas 10% do raciocínio direto correto dos dados de treinamento, supera um método padrão de ajuste fino treinado com 10 vezes mais raciocínio direto. O RevThink também exibe forte generalização para conjuntos de dados não vistos fora da distribuição.

Incorporação de Intervalo de Tempo Revela: É Hora de Fazer Cache para o Modelo de Difusão de Vídeo
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

Como um alicerce fundamental para a geração de vídeos, os modelos de difusão são desafiados pela baixa velocidade de inferência devido à natureza sequencial do processo de remoção de ruído. Métodos anteriores aceleram os modelos armazenando em cache e reutilizando as saídas do modelo em intervalos de tempo uniformemente selecionados. No entanto, tal estratégia negligencia o fato de que as diferenças entre as saídas do modelo não são uniformes ao longo dos intervalos de tempo, o que dificulta a seleção das saídas do modelo apropriadas para armazenamento em cache, resultando em um equilíbrio inadequado entre eficiência de inferência e qualidade visual. Neste estudo, apresentamos o TeaCache (Timestep Embedding Aware Cache), uma abordagem de armazenamento em cache sem treinamento que estima e aproveita as diferenças flutuantes entre as saídas do modelo ao longo dos intervalos de tempo. Em vez de usar diretamente as saídas do modelo que consomem tempo, o TeaCache foca nos inputs do modelo, que possuem uma forte correlação com as saídas do modelo e acarretam um custo computacional negligenciável. O TeaCache primeiro modula os inputs ruidosos usando os embeddings de intervalo de tempo para garantir que suas diferenças aproximem melhor as das saídas do modelo. Em seguida, o TeaCache introduz uma estratégia de reescalonamento para refinar as diferenças estimadas e as utiliza para indicar o armazenamento em cache das saídas. Experimentos mostram que o TeaCache alcança até 4,41 vezes de aceleração em relação ao Open-Sora-Plan com uma degradação de qualidade visual negligenciável (-0,07% no escore Vbench).

Difusão FAM: Modulação de Frequência e Atenção para Geração de Imagens de Alta Resolução com Difusão Estável
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

Os modelos de difusão são proficientes na geração de imagens de alta qualidade. No entanto, eles são eficazes somente ao operar na resolução utilizada durante o treinamento. Inferência em uma resolução escalada resulta em padrões repetitivos e distorções estruturais. O retrinamento em resoluções mais altas rapidamente se torna proibitivo. Portanto, métodos que permitem que modelos de difusão pré-existentes operem em resoluções flexíveis durante o teste são altamente desejáveis. Trabalhos anteriores sofrem de artefatos frequentes e frequentemente introduzem grandes atrasos de latência. Propomos dois módulos simples que se combinam para resolver essas questões. Introduzimos um módulo de Modulação de Frequência (FM) que alavanca o domínio de Fourier para melhorar a consistência da estrutura global, e um módulo de Modulação de Atenção (AM) que melhora a consistência de padrões de textura locais, um problema amplamente ignorado em trabalhos anteriores. Nosso método, denominado difusão Fam, pode ser integrado perfeitamente em qualquer modelo de difusão latente e não requer treinamento adicional. Resultados qualitativos extensivos destacam a eficácia de nosso método na abordagem de artefatos estruturais e locais, enquanto resultados quantitativos mostram desempenho de ponta. Além disso, nosso método evita truques de inferência redundantes para melhorar a consistência, como geração baseada em patches ou progressiva, resultando em atrasos de latência negligenciáveis.

Quebra-cabeça: NAS Baseado em Destilação para LLMs Otimizados para Inferência
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

Os modelos de linguagem de grande escala (LLMs) têm demonstrado capacidades notáveis, mas sua adoção é limitada pelos altos custos computacionais durante a inferência. Aumentar o número de parâmetros melhora a precisão, porém amplia a lacuna entre as capacidades de ponta e a viabilidade prática. Apresentamos o Puzzle, um framework para acelerar a inferência de LLM em hardware específico, preservando suas capacidades. Através de uma aplicação inovadora de busca de arquitetura neural (NAS) em uma escala sem precedentes, o Puzzle otimiza sistematicamente modelos com dezenas de bilhões de parâmetros sob restrições de hardware. Nosso método utiliza a destilação de conhecimento local em blocos (BLD) para exploração de arquitetura paralela e emprega programação inteira mista para otimização precisa das restrições. Demonstramos o impacto do nosso framework no mundo real através do Nemotron-51B do Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), um modelo disponível publicamente derivado do Llama-3.1-70B-Instruct. O Nemotron-51B alcança um aumento de 2,17 vezes na velocidade de inferência, sendo executado em uma única GPU NVIDIA H100, preservando 98,4% das capacidades do modelo original. O Nemotron-51B atualmente é o modelo de linguagem mais preciso capaz de inferência em uma única GPU com tamanhos de lote grandes. Notavelmente, essa transformação exigiu apenas 45B de tokens de treinamento, em comparação com mais de 15T de tokens usados para o modelo de 70B do qual foi derivado. Isso estabelece um novo paradigma onde modelos poderosos podem ser otimizados para implantação eficiente com apenas comprometimento negligível de suas capacidades, demonstrando que o desempenho de inferência, e não apenas o número de parâmetros, deve guiar a seleção do modelo. Com o lançamento do Nemotron-51B e a apresentação do framework Puzzle, fornecemos aos profissionais acesso imediato às capacidades de modelagem de linguagem de ponta a custos computacionais significativamente reduzidos.

Atenção de Trajetória para Controle Fino de Movimento de Vídeo de Alta Granularidade
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Os avanços recentes na geração de vídeo foram grandemente impulsionados por modelos de difusão de vídeo, com o controle de movimento da câmera emergindo como um desafio crucial na criação de conteúdo visual personalizado. Este artigo apresenta a atenção à trajetória, uma abordagem inovadora que realiza atenção ao longo das trajetórias de pixels disponíveis para um controle fino do movimento da câmera. Ao contrário dos métodos existentes que frequentemente produzem saídas imprecisas ou negligenciam correlações temporais, nossa abordagem possui um viés indutivo mais forte que injeta de forma contínua informações de trajetória no processo de geração de vídeo. Importante ressaltar que nossa abordagem modela a atenção à trajetória como um ramo auxiliar ao lado da atenção temporal tradicional. Esse design permite que a atenção temporal original e a atenção à trajetória trabalhem em sinergia, garantindo tanto o controle preciso do movimento quanto a capacidade de geração de novo conteúdo, o que é crucial quando a trajetória está parcialmente disponível. Experimentos sobre controle de movimento da câmera para imagens e vídeos demonstram melhorias significativas em precisão e consistência em longo alcance, mantendo uma geração de alta qualidade. Além disso, mostramos que nossa abordagem pode ser estendida para outras tarefas de controle de movimento de vídeo, como edição de vídeo guiada pelo primeiro quadro, onde se destaca na manutenção da consistência de conteúdo em grandes extensões espaciais e temporais.

Dimensionamento de Transformadores para Codificação de Fala de Alta Qualidade com Baixa Taxa de Bits
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

A tokenização de fala com modelos neurais de codec de áudio é uma parte vital das modernas tubulações de IA para a geração ou compreensão da fala, sozinha ou em um contexto multimodal. Tradicionalmente, tais modelos de tokenização têm se concentrado em arquiteturas de baixa contagem de parâmetros usando apenas componentes com fortes viés indutivos. Neste trabalho, mostramos que escalando uma arquitetura de transformer com grande contagem de parâmetros para este problema e aplicando um gargalo baseado em Quantização Escalar Finita (FSQ) flexível, é possível alcançar qualidade de fala de última geração a taxas extremamente baixas de bits de 400 ou 700 por segundo. Os modelos treinados superam significativamente as baselines existentes em testes objetivos e subjetivos.

DisCoRD: Tokens Discretos para Movimento Contínuo via Fluxo Retificado Decodificação
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

O movimento humano, inerentemente contínuo e dinâmico, apresenta desafios significativos para modelos generativos. Apesar de sua predominância, métodos de quantização discreta, como VQ-VAEs, sofrem de limitações inerentes, incluindo expressividade restrita e artefatos de ruído por quadro. Abordagens contínuas, embora produzam movimentos mais suaves e naturais, frequentemente falham devido à complexidade dimensional elevada e dados de treinamento limitados. Para resolver essa "discordância" entre representações discretas e contínuas, introduzimos DisCoRD: Tokens Discretos para Movimento Contínuo via Decodificação de Fluxo Retificado, um método inovador que decodifica tokens de movimento discretos em movimento contínuo através de fluxo retificado. Ao empregar um processo de refinamento iterativo no espaço contínuo, DisCoRD captura dinâmicas detalhadas e garante movimentos mais suaves e naturais. Compatível com qualquer estrutura baseada em discretização, nosso método aprimora a naturalidade sem comprometer a fidelidade aos sinais de condicionamento. Avaliações extensas demonstram que DisCoRD alcança desempenho de ponta, com FID de 0.032 no HumanML3D e 0.169 no KIT-ML. Esses resultados solidificam DisCoRD como uma solução robusta para superar a divisão entre eficiência discreta e realismo contínuo. Nossa página do projeto está disponível em: https://whwjdqls.github.io/discord.github.io/.

Analise Todos os Quadros de Uma Vez: Video-Ma^2mba para uma Compreensão Eficiente de Vídeos de Longa Duração com Verificação de Ponto de Controle de Gradiente Multi-Eixo
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Com a crescente escala e complexidade dos dados de vídeo, processar eficientemente sequências longas de vídeo apresenta desafios significativos devido ao aumento quadrático na demanda de memória e computacional associada aos Modelos Multimodais Grandes baseados em transformadores existentes (LMMs). Para lidar com essas questões, introduzimos o Video-Ma^2mba, uma arquitetura inovadora que incorpora Modelos de Espaço de Estado (SSMs) dentro do framework Mamba-2, substituindo os mecanismos de atenção. Isso permite que os LMMs aumentem linearmente em termos de requisitos de tempo e memória, tornando viável lidar com conteúdo de vídeo de longa duração. Além disso, aprimoramos a eficiência de memória introduzindo o método de Ponto de Verificação de Gradiente Multi-Eixo (MA-GC), que gerencia estrategicamente a memória retendo apenas ativações essenciais em múltiplos eixos computacionais. Nossa abordagem reduz significativamente a pegada de memória em comparação com o ponto de verificação de gradiente padrão. Análises empíricas mostram que o Video-Ma^2mba pode processar extensas sequências de vídeo-equivalentes a milhões de tokens ou mais de duas horas de sequências contínuas a 1 FPS-em uma única GPU. Ao manter uma captura detalhada da dinâmica temporal, nosso modelo melhora a precisão e relevância das respostas em tarefas de compreensão de vídeo longo, demonstrando vantagens substanciais sobre frameworks existentes.

MATATA: uma ferramenta de raciocínio assistida por ferramentas matemáticas de fraca supervisão para Aplicações Tabulares.
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

As capacidades de raciocínio matemático estão aumentando com agentes de linguagem auxiliados por ferramentas, mas os métodos frequentemente dependem de modelos fechados ou grandes, dados externos, ou engenharia de prompts extensiva. Este trabalho apresenta MATATA, um método inovador e econômico para treinar agentes LLM para problemas de dados tabulares por meio de raciocínio, planejamento e uso de ferramentas. Com um paradigma de autoaperfeiçoamento progressivo e uma supervisão fraca iterativa, ele capacita Modelos de Linguagem Pequenos (SLMs) de 3.8B/8B, especialmente adequados para hospedagem local e contextos empresariais sensíveis nos quais a privacidade dos dados é crucial. Ao empregar ferramentas flexíveis e reutilizáveis em diferentes conjuntos de dados, ele alcança desempenho robusto com escalabilidade eficaz em tarefas compartilhadas. Experimentos mostram que o MATATA alcança desempenhos de ponta no FinQA e TAT-QA entre os frameworks de raciocínio baseados em modelos de código aberto. Além disso, os modelos MATATA competem com os frameworks baseados em GPT-4 no TabMWP, sendo SLMs.

AC3D: Analisando e Melhorando o Controle de Câmera 3D em Vídeos de Difusão Transformers
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

Recentemente, inúmeros trabalhos integraram o controle de câmera 3D em modelos fundamentais de texto para vídeo, porém o controle resultante da câmera frequentemente é impreciso, e a qualidade de geração de vídeo é prejudicada. Neste trabalho, analisamos o movimento da câmera a partir de uma perspectiva de primeiros princípios, descobrindo insights que possibilitam uma manipulação precisa da câmera 3D sem comprometer a qualidade da síntese. Primeiramente, determinamos que o movimento induzido por movimentos da câmera em vídeos é de baixa frequência. Isso nos motiva a ajustar os cronogramas de condicionamento de pose de treinamento e teste, acelerando a convergência do treinamento enquanto melhoramos a qualidade visual e de movimento. Em seguida, ao investigar as representações de um transformador de difusão de vídeo incondicional, observamos que implicitamente realizam a estimativa de pose da câmera nos bastidores, e apenas uma sub-parte de suas camadas contém as informações da câmera. Isso nos sugeriu limitar a injeção de condicionamento da câmera a um subconjunto da arquitetura para evitar interferência com outras características de vídeo, resultando em uma redução de 4x dos parâmetros de treinamento, melhoria na velocidade de treinamento e 10% a mais de qualidade visual. Por fim, complementamos o conjunto de dados típico para aprendizado de controle de câmera com um conjunto de dados curado de 20 mil vídeos dinâmicos diversos com câmeras estacionárias. Isso ajuda o modelo a distinguir a diferença entre movimento da câmera e da cena, e melhora a dinâmica dos vídeos condicionados por pose gerados. Combinamos essas descobertas para projetar a arquitetura de Controle Avançado de Câmera 3D (AC3D), o novo modelo de última geração para modelagem de vídeo generativa com controle de câmera.

AlphaTablets: Uma Representação Genérica de Plano para Reconstrução Planar 3D a partir de Vídeos Monoculares
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Apresentamos os AlphaTablets, uma representação inovadora e genérica de planos 3D que apresenta uma superfície 3D contínua e delineação precisa de fronteiras. Ao representar planos 3D como retângulos com canais alfa, os AlphaTablets combinam as vantagens das representações de planos 2D e 3D atuais, possibilitando modelagem precisa, consistente e flexível de planos 3D. Derivamos uma rasterização diferenciável sobre os AlphaTablets para renderizar eficientemente planos 3D em imagens, e propomos um novo pipeline ascendente para reconstrução planar 3D a partir de vídeos monoculares. Começando com superpixels 2D e pistas geométricas de modelos pré-treinados, inicializamos os planos 3D como AlphaTablets e os otimizamos por meio de renderização diferenciável. Um esquema eficaz de fusão é introduzido para facilitar o crescimento e refinamento dos AlphaTablets. Através de otimização e fusão iterativas, reconstruímos planos 3D completos e precisos com superfícies sólidas e fronteiras claras. Experimentos extensivos no conjunto de dados ScanNet demonstram um desempenho de ponta na reconstrução planar 3D, destacando o grande potencial dos AlphaTablets como uma representação genérica de planos 3D para diversas aplicações. A página do projeto está disponível em: https://hyzcluster.github.io/alphatablets

Estrutura Professor-Aluno LLM para Classificação de Texto Sem Dados Anotados Manualmente: Um Estudo de Caso na Classificação de Tópicos de Notícias IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

Com o número cada vez maior de notícias disponíveis online, classificá-las por tópico, independentemente do idioma em que estão escritas, tornou-se crucial para melhorar o acesso dos leitores a conteúdos relevantes. Para enfrentar esse desafio, propomos um framework professor-aluno baseado em grandes modelos de linguagem (LLMs) para desenvolver modelos multilíngues de classificação de notícias de tamanho razoável sem a necessidade de anotação manual de dados. O framework utiliza um modelo Generative Pretrained Transformer (GPT) como o modelo professor para desenvolver um conjunto de dados de treinamento de tópicos de mídia IPTC por meio da anotação automática de artigos de notícias em esloveno, croata, grego e catalão. O modelo professor apresenta um alto desempenho de zero-shot em todos os quatro idiomas. Sua concordância com os anotadores humanos é comparável àquela entre os próprios anotadores humanos. Para mitigar as limitações computacionais associadas à necessidade de processar milhões de textos diariamente, modelos alunos menores semelhantes ao BERT são ajustados no conjunto de dados anotados pelo GPT. Esses modelos alunos alcançam alto desempenho comparável ao modelo professor. Além disso, exploramos o impacto do tamanho dos dados de treinamento no desempenho dos modelos alunos e investigamos suas capacidades monolíngues, multilíngues e de zero-shot cross-lingual. Os resultados indicam que os modelos alunos podem alcançar alto desempenho com um número relativamente pequeno de instâncias de treinamento e demonstram fortes habilidades de zero-shot cross-lingual. Por fim, publicamos o classificador de tópicos de notícias com melhor desempenho, possibilitando a classificação multilíngue com as categorias de nível superior do esquema de tópicos de mídia IPTC.

DeMo: Otimização de Momento Desacoplado
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

O treinamento de grandes redes neurais geralmente requer o compartilhamento de gradientes entre aceleradores por meio de interconexões especializadas de alta velocidade. Inspirados nos princípios de processamento de sinais de decomposição em frequência e compactação de energia, demonstramos que a sincronização completa dos estados do otimizador e dos parâmetros do modelo durante o treinamento é desnecessária. Ao desacoplar as atualizações de momento e permitir divergências controladas nos estados do otimizador entre os aceleradores, alcançamos uma convergência aprimorada em comparação com otimizadores de ponta. Apresentamos o {De}coupled {Mo}mentum (DeMo), um otimizador fusível e um algoritmo paralelo de dados que reduz os requisitos de comunicação entre aceleradores em várias ordens de magnitude. Isso possibilita o treinamento de grandes redes neurais mesmo com largura de banda de rede limitada e hardware heterogêneo. Nosso método é agnóstico em relação à topologia e independente de arquitetura, e suporta treinamento distribuído síncrono por clock escalável com sobrecarga computacional e de memória negligenciável. Resultados empíricos mostram que modelos treinados com DeMo correspondem ou excedem o desempenho de modelos equivalentes treinados com AdamW, eliminando a necessidade de interconexões de alta velocidade ao pré-treinar modelos de fundação em larga escala. Uma implementação de referência de código aberto em PyTorch está disponível no GitHub em https://github.com/bloc97/DeMo

SpotLight: Iluminação de Objetos Guiada por Sombras via Difusão
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Trabalhos recentes mostraram que modelos de difusão podem ser usados como poderosos motores de renderização neural que podem ser aproveitados para inserir objetos virtuais em imagens. Ao contrário dos renderizadores baseados em física típicos, no entanto, os motores de renderização neural são limitados pela falta de controle manual sobre a configuração de iluminação, que muitas vezes é essencial para melhorar ou personalizar a imagem desejada. Neste artigo, demonstramos que é possível obter um controle preciso da iluminação para a reluminação de objetos simplesmente especificando as sombras desejadas do objeto. Surpreendentemente, mostramos que ao injetar apenas a sombra do objeto em um renderizador neural baseado em difusão pré-treinado, é possível sombrear com precisão o objeto de acordo com a posição da luz desejada, harmonizando adequadamente o objeto (e sua sombra) dentro da imagem de fundo alvo. Nosso método, SpotLight, aproveita abordagens de renderização neural existentes e alcança resultados de reluminação controláveis sem treinamento adicional. Especificamente, demonstramos seu uso com dois renderizadores neurais da literatura recente. Mostramos que o SpotLight alcança resultados superiores de composição de objetos, tanto quantitativamente quanto perceptualmente, conforme confirmado por um estudo de usuários, superando modelos baseados em difusão existentes especificamente projetados para reluminação.

Treinamento de Podas de Tokens de Ruído
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

No presente trabalho, apresentamos o Treinamento com Ruído nos Tokens (TNT) para poda em transformers de visão. Nosso método relaxa a condição de eliminação discreta de tokens para ruído aditivo contínuo, proporcionando uma otimização suave no treinamento, ao mesmo tempo em que mantém os ganhos computacionais da eliminação discreta em ambientes de implantação. Estabelecemos conexões teóricas com a literatura de Taxa-Distorção e realizamos avaliações empíricas no conjunto de dados ImageNet usando as arquiteturas ViT e DeiT, demonstrando as vantagens do TNT sobre métodos de poda anteriores.

Relatório Técnico Yi-Lightning
Yi-Lightning Technical Report

Dec 2