Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

Feb 4, 2025

Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin

678

Apesar do tremendo progresso recente, os modelos generativos de vídeo ainda lutam para capturar o movimento, dinâmica e física do mundo real. Mostramos que essa limitação decorre do objetivo convencional de reconstrução de pixels, que enviesa os modelos em direção à fidelidade de aparência em detrimento da coerência de movimento. Para lidar com isso, introduzimos o VideoJAM, um novo framework que incorpora uma prioridade de movimento eficaz aos geradores de vídeo, incentivando o modelo a aprender uma representação conjunta de aparência e movimento. O VideoJAM é composto por duas unidades complementares. Durante o treinamento, estendemos o objetivo para prever tanto os pixels gerados quanto seus movimentos correspondentes a partir de uma única representação aprendida. Durante a inferência, introduzimos o Inner-Guidance, um mecanismo que direciona a geração em direção a um movimento coerente, aproveitando a previsão de movimento em evolução do próprio modelo como um sinal dinâmico de orientação. Notavelmente, nosso framework pode ser aplicado a qualquer modelo de vídeo com adaptações mínimas, não exigindo modificações nos dados de treinamento ou escalonamento do modelo. O VideoJAM alcança um desempenho de ponta em coerência de movimento, superando modelos proprietários altamente competitivos, ao mesmo tempo em que aprimora a qualidade visual percebida das gerações. Essas descobertas enfatizam que a aparência e o movimento podem ser complementares e, quando integrados de forma eficaz, aprimoram tanto a qualidade visual quanto a coerência da geração de vídeo. Website do projeto: https://hila-chefer.github.io/videojam-paper.github.io/

ACECODER: Dominando o Aprendizado por Reforço do Programador através da Síntese Automatizada de Casos de Teste
ACECODER: Acing Coder RL via Automated Test-Case Synthesis

Feb 3, 2025

Huaye Zeng, Dongfu Jiang, Haozhe Wang, Ping Nie, Xiaotong Chen, Wenhu Chen

292

A maioria dos avanços nos modelos de codificadores recentes tem sido impulsionada pelo ajuste fino supervisionado (SFT), enquanto o potencial do aprendizado por reforço (RL) permanece amplamente inexplorado, principalmente devido à falta de dados/modelo de recompensa confiáveis no domínio do código. Neste artigo, abordamos esse desafio aproveitando a síntese automatizada em larga escala de casos de teste para aprimorar o treinamento do modelo de código. Especificamente, projetamos um pipeline que gera extensos pares (pergunta, casos de teste) a partir de dados de código existentes. Usando esses casos de teste, construímos pares de preferência com base nas taxas de aprovação em programas amostrados para treinar modelos de recompensa com perda de Bradley-Terry. Isso mostra uma melhoria média de 10 pontos para Llama-3.1-8B-Ins e 5 pontos para Qwen2.5-Coder-7B-Ins por meio da melhor seleção de 32, tornando o modelo 7B equivalente ao DeepSeek-V2.5 de 236B. Além disso, realizamos aprendizado por reforço com ambos os modelos de recompensa e recompensas de aprovação de casos de teste, resultando em melhorias consistentes em HumanEval, MBPP, BigCodeBench e LiveCodeBench (V4). Notavelmente, seguimos o treinamento no estilo R1 para começar diretamente do Qwen2.5-Coder-base e demonstramos que nosso treinamento de RL pode melhorar o modelo em HumanEval-plus em mais de 25\% e em MBPP-plus em 6\% em apenas 80 etapas de otimização. Acreditamos que nossos resultados destacam o enorme potencial do aprendizado por reforço em modelos de codificadores.

Destilação de Correspondência de Ponte Inversa
Inverse Bridge Matching Distillation

Feb 3, 2025

Nikita Gushchin, David Li, Daniil Selikhanovych, Evgeny Burnaev, Dmitry Baranchuk, Alexander Korotin

282

Aprender a modelar pontes de difusão é fácil; torná-las rápidas e práticas é uma arte. Os modelos de ponte de difusão (DBMs) são uma extensão promissora dos modelos de difusão para aplicações em tradução de imagem para imagem. No entanto, assim como muitos modelos modernos de difusão e fluxo, os DBMs sofrem do problema de inferência lenta. Para abordá-lo, propomos uma técnica de destilação inovadora com base na formulação de correspondência de ponte inversa e derivamos o objetivo viável para resolvê-lo na prática. Ao contrário das técnicas de destilação de DBM desenvolvidas anteriormente, o método proposto pode destilar tanto tipos condicionais quanto incondicionais de DBMs, destilar modelos em um gerador de um passo e usar apenas imagens corrompidas para treinamento. Avaliamos nossa abordagem para ambos os tipos condicionais e incondicionais de correspondência de ponte em uma ampla variedade de configurações, incluindo super-resolução, restauração de JPEG, esboço para imagem e outras tarefas, e mostramos que nossa técnica de destilação nos permite acelerar a inferência de DBMs de 4x a 100x e até mesmo fornecer melhor qualidade de geração do que o modelo professor utilizado, dependendo da configuração específica.

Satori: Aprendizado por Reforço com Cadeia de Pensamento de Ação Aprimora o Raciocínio LLM por Meio de Busca Autoregressiva
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

Feb 4, 2025

Maohao Shen, Guangtao Zeng, Zhenting Qi, Zhang-Wei Hong, Zhenfang Chen, Wei Lu, Gregory Wornell, Subhro Das, David Cox, Chuang Gan

232

Os grandes modelos de linguagem (LLMs) têm demonstrado notáveis capacidades de raciocínio em diversos domínios. Estudos recentes têm mostrado que aumentar a computação no momento do teste aprimora as capacidades de raciocínio dos LLMs. Isso normalmente envolve uma amostragem extensiva no momento da inferência guiada por um verificador externo de LLM, resultando em um sistema de dois jogadores. Apesar da orientação externa, a eficácia desse sistema demonstra o potencial de um único LLM para lidar com tarefas complexas. Assim, propomos um novo problema de pesquisa: Podemos internalizar as capacidades de busca para aprimorar fundamentalmente as habilidades de raciocínio de um único LLM? Este trabalho explora uma direção ortogonal focada em LLMs pós-treinamento para busca autoregressiva (ou seja, um processo de raciocínio estendido com autorreflexão e autoexploração de novas estratégias). Para alcançar isso, propomos o raciocínio em Cadeia-de-Ação-Pensamento (COAT) e um paradigma de treinamento em duas etapas: 1) uma etapa de ajuste de formato em pequena escala para internalizar o formato de raciocínio COAT e 2) uma etapa de autoaperfeiçoamento em grande escala aproveitando o aprendizado por reforço. Nossa abordagem resulta no Satori, um LLM de 7B treinado em modelos e dados de código aberto. Avaliações empíricas extensivas demonstram que o Satori alcança um desempenho de ponta em benchmarks de raciocínio matemático, enquanto exibe forte capacidade de generalização para tarefas fora do domínio. O código, dados e modelos serão totalmente disponibilizados em código aberto.

QLASS: Aumentando a Inferência do Agente de Linguagem por meio da Busca Passo a Passo Guiada por Q
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

Feb 4, 2025

Zongyu Lin, Yao Tang, Xingcheng Yao, Da Yin, Ziniu Hu, Yizhou Sun, Kai-Wei Chang

172

Os agentes de linguagem tornaram-se uma solução promissora para tarefas interativas complexas. Um dos principais elementos para o sucesso dos agentes de linguagem é o modelo de recompensa na trajetória do fluxo de trabalho do agente, que fornece orientação valiosa durante o treinamento ou inferência. No entanto, devido à falta de anotações de interações intermediárias, a maioria dos trabalhos existentes utiliza um modelo de recompensa de resultado para otimizar políticas em trajetórias completas. Isso pode resultar em políticas subótimas e prejudicar o desempenho geral. Para lidar com isso, propomos o QLASS (Busca Passo a Passo de Agente de Linguagem Guiado por Q), para gerar automaticamente anotações estimando os valores Q de maneira passo a passo para agentes de linguagem aberta. Ao introduzir uma árvore de raciocínio e realizar modelagem de recompensa de processo, o QLASS fornece orientação intermediária eficaz para cada etapa. Com a orientação passo a passo, propomos uma estratégia de geração guiada por Q para permitir que os agentes de linguagem se adaptem melhor ao valor de longo prazo, resultando em melhorias significativas de desempenho durante a inferência do modelo em tarefas de agente interativo complexas. Notavelmente, mesmo com quase metade dos dados anotados, o QLASS mantém um desempenho sólido, demonstrando sua eficiência no tratamento de supervisão limitada. Também demonstramos empiricamente que o QLASS pode levar a tomadas de decisão mais eficazes por meio de análises qualitativas. Vamos disponibilizar nosso código e dados.

Os LLMs conseguem manter habilidades fundamentais sob compressão de cache KV?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

Feb 4, 2025

Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu

152

Este artigo investiga um desafio pouco explorado em modelos de linguagem grandes (LLMs): o impacto dos métodos de compressão de cache KV nas capacidades fundamentais dos LLMs. Enquanto os métodos existentes alcançam índices impressionantes de compressão em benchmarks de contexto longo, seus efeitos nas capacidades principais do modelo permanecem pouco estudados. Apresentamos um estudo empírico abrangente que avalia métodos proeminentes de compressão de cache KV em diversas tarefas, abrangendo conhecimento mundial, raciocínio do senso comum, raciocínio aritmético, geração de código, segurança e compreensão e geração de contexto longo. Nossa análise revela que os métodos de compressão de cache KV apresentam degradação de desempenho específica da tarefa. Tarefas de raciocínio aritmético mostram-se particularmente sensíveis à compressão agressiva, com diferentes métodos apresentando quedas de desempenho de 17,4% a 43,3%. Notavelmente, o modelo DeepSeek R1 Distill exibe uma tolerância de compressão mais robusta em comparação com modelos ajustados por instrução, apresentando apenas uma degradação de desempenho de 9,67% a 25,53%. Com base em nossa análise de padrões de atenção e desempenho de compressão entre tarefas, propomos o ShotKV, uma abordagem de compressão inovadora que lida de forma distinta com as fases de pré-preenchimento e decodificação, mantendo a coerência semântica em nível de shot. Resultados empíricos mostram que o ShotKV alcança melhorias de desempenho de 9% a 18% em tarefas de geração de contexto longo sob índices agressivos de compressão.

Repensando a Mistura de Agentes: Misturar Diferentes Modelos de Linguagem Grandes é Benéfico?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

Feb 2, 2025

Wenzhe Li, Yong Lin, Mengzhou Xia, Chi Jin

134

A combinação de saídas de fontes diversas é uma abordagem simples, porém eficaz, para aumentar o desempenho. Mixture-of-Agents (MoA) é um método de conjunto popular que agrega saídas de múltiplos Modelos de Linguagem Grandes (LLMs) diferentes. Este artigo levanta a questão no contexto dos modelos de linguagem: misturar diferentes LLMs é realmente benéfico? Propomos o Self-MoA - um método de conjunto que agrega saídas apenas do LLM de melhor desempenho. Nossos experimentos extensivos revelam que, surpreendentemente, o Self-MoA supera o MoA padrão que mistura diferentes LLMs em um grande número de cenários: o Self-MoA alcança uma melhoria de 6,6% sobre o MoA no benchmark AlpacaEval 2.0, e uma média de 3,8% de melhoria em vários benchmarks, incluindo MMLU, CRUX e MATH. Aplicar o Self-MoA a um dos modelos mais bem classificados no AlpacaEval 2.0 alcança diretamente o novo desempenho de ponta no quadro de líderes. Para entender a eficácia do Self-MoA, investigamos sistematicamente o equilíbrio entre diversidade e qualidade das saídas em várias configurações do MoA. Confirmamos que o desempenho do MoA é bastante sensível à qualidade, e misturar diferentes LLMs frequentemente reduz a qualidade média dos modelos. Para complementar o estudo, identificamos os cenários em que a mistura de diferentes LLMs pode ser útil. Este artigo também introduz uma versão sequencial do Self-MoA, capaz de agregar um grande número de saídas de LLMs dinamicamente ao longo de várias rodadas, e é tão eficaz quanto a agregação de todas as saídas de uma vez.

Direcionadores de Conceito: Alavancando Autoencoders K-Esparso para Gerações Controláveis
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

Jan 31, 2025

Dahye Kim, Deepti Ghadiyaram

132

Apesar do notável progresso em modelos generativos de texto para imagem, eles são propensos a ataques adversariais e geram inadvertidamente conteúdo inseguro e antiético. As abordagens existentes frequentemente dependem do ajuste fino dos modelos para remover conceitos específicos, o que é computacionalmente caro, carece de escalabilidade e/ou compromete a qualidade da geração. Neste trabalho, propomos um novo framework que utiliza autoencoders k-esparsos (k-SAEs) para possibilitar a manipulação eficiente e interpretável de conceitos em modelos de difusão. Especificamente, identificamos primeiramente conceitos monossemânticos interpretáveis no espaço latente dos embeddings de texto e os utilizamos para direcionar precisamente a geração para longe ou em direção a um conceito específico (por exemplo, nudez) ou para introduzir um novo conceito (por exemplo, estilo fotográfico). Através de experimentos extensivos, demonstramos que nossa abordagem é muito simples, não requer retrabalho do modelo base nem adaptadores LoRA, não compromete a qualidade da geração e é robusta a manipulações adversariais de prompts. Nosso método resulta em uma melhoria de 20,01% na remoção de conceitos inseguros, é eficaz na manipulação de estilo e é 5 vezes mais rápido do que o estado-da-arte atual.

Amostra, Analise e Dimensione: Busca Efetiva em Tempo de Inferência por Dimensionamento da Verificação
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

Feb 3, 2025

Eric Zhao, Pranjal Awasthi, Sreenivas Gollapudi

112

A busca baseada em amostragem, um paradigma simples para utilizar o tempo de teste de computação, envolve gerar múltiplas respostas candidatas e selecionar a melhor delas - tipicamente verificando cada resposta quanto à correção. Neste artigo, estudamos as tendências de escalabilidade que regem a busca baseada em amostragem. Entre nossas descobertas está o fato de que simplesmente aumentar a escala de uma implementação minimalista que utiliza apenas amostragem aleatória e autoverificação direta resulta em melhorias de desempenho sustentadas que, por exemplo, elevam as capacidades de raciocínio do modelo Gemini v1.5 Pro acima do o1-Preview em benchmarks populares. Atribuímos parcialmente a escalabilidade da busca baseada em amostragem a um fenômeno de escalonamento implícito, onde amostrar um pool maior de respostas por sua vez melhora a precisão da verificação. Identificamos ainda dois princípios úteis para melhorar as capacidades de autoverificação com tempo de teste: (1) comparar entre respostas fornece sinais úteis sobre os locais de erros e alucinações, e (2) estilos de saída de modelo diferentes são úteis para contextos diferentes - cadeias de pensamento são úteis para raciocínio, mas mais difíceis de verificar. Também descobrimos que, embora a verificação precisa possa ser obtida, os modelos de fronteira demonstram capacidades de verificação fora da caixa notavelmente fracas e introduzem um benchmark para medir o progresso nessas deficiências.

COCONut-PanCap: Segmentação Panóptica Conjunta e Legendas Fundamentadas para Compreensão e Geração Detalhadas.
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

Feb 4, 2025

Xueqing Deng, Qihang Yu, Ali Athar, Chenglin Yang, Linjie Yang, Xiaojie Jin, Xiaohui Shen, Liang-Chieh Chen

102

Este artigo apresenta o conjunto de dados COCONut-PanCap, criado para aprimorar a segmentação panóptica e a geração de legendas de imagens fundamentadas. Construído a partir do conjunto de dados COCO com máscaras panópticas avançadas COCONut, este conjunto de dados tem como objetivo superar as limitações nos conjuntos de dados imagem-texto existentes que frequentemente carecem de descrições detalhadas e abrangentes da cena. O conjunto de dados COCONut-PanCap incorpora legendas em nível de região detalhadas, fundamentadas em máscaras de segmentação panóptica, garantindo consistência e melhorando o detalhamento das legendas geradas. Através de descrições densamente anotadas e editadas por humanos, o COCONut-PanCap apoia o aprimoramento do treinamento de modelos visão-linguagem (VLMs) para compreensão de imagens e modelos generativos para tarefas de texto-para-imagem. Resultados experimentais demonstram que o COCONut-PanCap melhora significativamente o desempenho em tarefas de compreensão e geração, oferecendo benefícios complementares aos conjuntos de dados em grande escala. Este conjunto de dados estabelece um novo referencial para avaliar modelos em tarefas conjuntas de segmentação panóptica e geração de legendas fundamentadas, abordando a necessidade de anotações imagem-texto detalhadas e de alta qualidade em aprendizado multimodal.

Geração de CAD a partir de Texto por Meio da Incorporação de Feedback Visual em Modelos de Linguagem de Grande Escala
Text-to-CAD Generation Through Infusing Visual Feedback in Large Language Models

Jan 31, 2025

Ruiyu Wang, Yu Yuan, Shizhao Sun, Jiang Bian

102

A criação de modelos de Design Assistido por Computador (CAD) requer expertise significativa e esforço. O Texto-para-CAD, que converte descrições textuais em sequências paramétricas CAD, é crucial para otimizar esse processo. Estudos recentes têm utilizado sequências paramétricas de referência, conhecidas como sinais sequenciais, como supervisão para alcançar esse objetivo. No entanto, os modelos CAD são inerentemente multimodais, compreendendo sequências paramétricas e objetos visuais renderizados correspondentes. Além disso, o processo de renderização de sequências paramétricas para objetos visuais é de muitos para um. Portanto, tanto os sinais sequenciais quanto visuais são cruciais para um treinamento eficaz. Neste trabalho, apresentamos o CADFusion, um framework que utiliza Modelos de Linguagem Grandes (LLMs) como base e alterna entre duas etapas de treinamento: a etapa de aprendizado sequencial (SL) e a etapa de feedback visual (VF). Na etapa SL, treinamos LLMs usando sequências paramétricas de referência, possibilitando a geração de sequências paramétricas logicamente coerentes. Na etapa VF, recompensamos sequências paramétricas que se transformam em objetos visualmente preferidos e penalizamos aquelas que não o fazem, permitindo que os LLMs aprendam como os objetos visuais renderizados são percebidos e avaliados. Essas duas etapas alternam ao longo do treinamento, garantindo um aprendizado equilibrado e preservando os benefícios de ambos os sinais. Experimentos demonstram que o CADFusion melhora significativamente o desempenho, tanto qualitativa quanto quantitativamente.

Gerando Dados Sintéticos de Múltiplas Imagens para Personalização Texto-para-Imagem
Generating Multi-Image Synthetic Data for Text-to-Image Customization

Feb 3, 2025

Nupur Kumari, Xi Yin, Jun-Yan Zhu, Ishan Misra, Samaneh Azadi

A personalização de modelos texto-imagem permite aos usuários inserir conceitos personalizados e gerar os conceitos em ambientes não vistos. Métodos existentes geralmente dependem de otimização custosa no momento do teste ou treinam codificadores em conjuntos de dados de treinamento de única imagem sem supervisão multi-imagem, resultando em qualidade de imagem inferior. Propomos uma abordagem simples que aborda ambas as limitações. Primeiramente, aproveitamos modelos texto-imagem existentes e conjuntos de dados 3D para criar um Conjunto de Dados de Personalização Sintética (SynCD) de alta qualidade, consistindo de múltiplas imagens do mesmo objeto em diferentes iluminações, fundos e poses. Em seguida, propomos uma nova arquitetura de codificador baseada em mecanismos de atenção compartilhada que incorporam melhor detalhes visuais refinados das imagens de entrada. Por fim, propomos uma nova técnica de inferência que mitiga problemas de superexposição durante a inferência, normalizando os vetores de orientação de texto e imagem. Através de experimentos extensivos, demonstramos que nosso modelo, treinado no conjunto de dados sintético com o codificador e algoritmo de inferência propostos, supera os métodos existentes sem ajuste em benchmarks padrão de personalização.

Esboço Federado LoRA: Ajuste Fino Colaborativo em Dispositivos de Modelos de Linguagem Grandes
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models

Jan 31, 2025

Wenzhi Fang, Dong-Jun Han, Liangqi Yuan, Seyyedali Hosseinalipour, Christopher G. Brinton

O ajuste fino de grandes modelos de linguagem (LLMs) em dispositivos está atraindo um interesse crescente. Trabalhos recentes têm fundido técnicas de adaptação de baixa ordem (LoRA) com ajuste fino federado para mitigar os desafios associados aos tamanhos de modelo de dispositivo e à escassez de dados. Ainda assim, a heterogeneidade dos recursos computacionais permanece um gargalo crítico: enquanto módulos de ordem superior geralmente melhoram o desempenho, as capacidades variadas dos dispositivos restringem a faixa de ordem viável do LoRA. Abordagens existentes que tentam resolver esse problema ou carecem de justificativa analítica ou impõem sobrecarga computacional adicional, deixando uma lacuna ampla para uma solução eficiente e teoricamente fundamentada. Para enfrentar esses desafios, propomos o LoRA de esboço federado (FSLoRA), que alavanca um mecanismo de esboço para permitir que os dispositivos atualizem seletivamente submatrizes dos módulos globais do LoRA mantidos pelo servidor. Ao ajustar as proporções de esboço, que determinam as ordens das submatrizes nos dispositivos, o FSLoRA se adapta de forma flexível às restrições de comunicação e computacionais específicas do dispositivo. Fornecemos uma análise rigorosa de convergência do FSLoRA que caracteriza como as proporções de esboço afetam a taxa de convergência. Através de experimentos abrangentes em vários conjuntos de dados e modelos LLM, demonstramos o desempenho superior do FSLoRA em comparação com várias bases.

Aproximações de Ativação Podem Acarretar Vulnerabilidades de Segurança Mesmo em LLMs Alinhados: Análise Abrangente e Defesa
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

Feb 2, 2025

Jiawen Zhang, Kejia Chen, Lipeng He, Jian Lou, Dan Li, Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, Xiaohu Yang

Os Modelos de Linguagem de Grande Escala (LLMs) têm demonstrado capacidades notáveis em diversos domínios. Acompanhando as capacidades em evolução e os cenários de implementação em expansão dos LLMs, os desafios de implementação aumentam devido à sua grande escala e aos designs avançados, porém complexos, prevalentes em séries de modelos notáveis, como Llama, Gemma e Mistral. Esses desafios têm se tornado particularmente evidentes em cenários de implementação com recursos limitados, nos quais a mitigação de gargalos de eficiência de inferência é imperativa. Entre vários esforços recentes, a aproximação de ativação surgiu como uma via promissora para buscar eficiência de inferência, às vezes considerada indispensável em aplicações como inferência privada. Apesar de alcançar melhorias substanciais de velocidade com impacto mínimo na utilidade, parecendo viável e prática até mesmo para implementação no mundo real, as implicações de segurança das aproximações de ativação permanecem incertas. Neste trabalho, preenchemos essa lacuna crítica na segurança de LLMs realizando a primeira avaliação sistemática de segurança de aproximações de ativação. Nossa avaliação de segurança abrange sete técnicas de ponta em três categorias populares, revelando uma degradação consistente na segurança em dez LLMs alinhados com a segurança.

VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

Feb 4, 2025

Hila Chefer, Uriel Singer, Amit Zohar, Yuval Kirstain, Adam Polyak, Yaniv Taigman, Lior Wolf, Shelly Sheynin

678

Papers Diários

VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

ACECODER: Dominando o Aprendizado por Reforço do Programador através da Síntese Automatizada de Casos de Teste
ACECODER: Acing Coder RL via Automated Test-Case Synthesis

Destilação de Correspondência de Ponte Inversa
Inverse Bridge Matching Distillation

Satori: Aprendizado por Reforço com Cadeia de Pensamento de Ação Aprimora o Raciocínio LLM por Meio de Busca Autoregressiva
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

QLASS: Aumentando a Inferência do Agente de Linguagem por meio da Busca Passo a Passo Guiada por Q
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

Os LLMs conseguem manter habilidades fundamentais sob compressão de cache KV?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

Repensando a Mistura de Agentes: Misturar Diferentes Modelos de Linguagem Grandes é Benéfico?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

Direcionadores de Conceito: Alavancando Autoencoders K-Esparso para Gerações Controláveis
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

Amostra, Analise e Dimensione: Busca Efetiva em Tempo de Inferência por Dimensionamento da Verificação
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

COCONut-PanCap: Segmentação Panóptica Conjunta e Legendas Fundamentadas para Compreensão e Geração Detalhadas.
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

Geração de CAD a partir de Texto por Meio da Incorporação de Feedback Visual em Modelos de Linguagem de Grande Escala
Text-to-CAD Generation Through Infusing Visual Feedback in Large Language Models

Gerando Dados Sintéticos de Múltiplas Imagens para Personalização Texto-para-Imagem
Generating Multi-Image Synthetic Data for Text-to-Image Customization

Esboço Federado LoRA: Ajuste Fino Colaborativo em Dispositivos de Modelos de Linguagem Grandes
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models

Aproximações de Ativação Podem Acarretar Vulnerabilidades de Segurança Mesmo em LLMs Alinhados: Análise Abrangente e Defesa
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense

Support

Support

Papers Diários

VideoJAM: Representações Conjuntas de Aparência-Movimento para Geração Aprimorada de Movimento em Modelos de Vídeo
VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models

ACECODER: Dominando o Aprendizado por Reforço do Programador através da Síntese Automatizada de Casos de Teste
ACECODER: Acing Coder RL via Automated Test-Case Synthesis

Destilação de Correspondência de Ponte Inversa
Inverse Bridge Matching Distillation

Satori: Aprendizado por Reforço com Cadeia de Pensamento de Ação Aprimora o Raciocínio LLM por Meio de Busca Autoregressiva
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search

QLASS: Aumentando a Inferência do Agente de Linguagem por meio da Busca Passo a Passo Guiada por Q
QLASS: Boosting Language Agent Inference via Q-Guided Stepwise Search

Os LLMs conseguem manter habilidades fundamentais sob compressão de cache KV?
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

Repensando a Mistura de Agentes: Misturar Diferentes Modelos de Linguagem Grandes é Benéfico?
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial?

Direcionadores de Conceito: Alavancando Autoencoders K-Esparso para Gerações Controláveis
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations

Amostra, Analise e Dimensione: Busca Efetiva em Tempo de Inferência por Dimensionamento da Verificação
Sample, Scrutinize and Scale: Effective Inference-Time Search by Scaling Verification

COCONut-PanCap: Segmentação Panóptica Conjunta e Legendas Fundamentadas para Compreensão e Geração Detalhadas.
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation

Geração de CAD a partir de Texto por Meio da Incorporação de Feedback Visual em Modelos de Linguagem de Grande Escala
Text-to-CAD Generation Through Infusing Visual Feedback in Large Language Models

Gerando Dados Sintéticos de Múltiplas Imagens para Personalização Texto-para-Imagem
Generating Multi-Image Synthetic Data for Text-to-Image Customization

Esboço Federado LoRA: Ajuste Fino Colaborativo em Dispositivos de Modelos de Linguagem Grandes
Federated Sketching LoRA: On-Device Collaborative Fine-Tuning of Large Language Models

Aproximações de Ativação Podem Acarretar Vulnerabilidades de Segurança Mesmo em LLMs Alinhados: Análise Abrangente e Defesa
Activation Approximations Can Incur Safety Vulnerabilities Even in Aligned LLMs: Comprehensive Analysis and Defense