ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Dando Vida aos Objetos: Geração 4D a partir de objetos 3D
Bringing Objects to Life: 4D generation from 3D objects

Dec 29
ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
40
2

Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.

2

Não Pense Demais para 2+3=? Sobre o Excesso de Pensamento dos LLMs Tipo o1
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30
ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
40
2

O notável desempenho de modelos como o OpenAI o1 pode ser atribuído à sua capacidade de emular um pensamento de longo prazo semelhante ao humano durante a inferência. Esses modelos empregam processos de cadeia de pensamento estendida (CoT), explorando múltiplas estratégias para aprimorar as capacidades de resolução de problemas. No entanto, uma questão crítica permanece: Como dimensionar inteligentemente e de forma eficiente os recursos computacionais durante os testes. Este artigo apresenta o primeiro estudo abrangente sobre o problema prevalente de pensar demais nesses modelos, onde recursos computacionais excessivos são alocados para problemas simples com benefícios mínimos. Introduzimos novas métricas de eficiência de ambas as perspectivas de resultado e processo para avaliar o uso racional de recursos computacionais por modelos semelhantes ao o1. Usando um paradigma de autoaprendizagem, propomos estratégias para mitigar o pensamento excessivo, otimizando os processos de raciocínio sem comprometer a precisão. Os resultados experimentais mostram que nossa abordagem reduz com sucesso a sobrecarga computacional, preservando o desempenho do modelo em uma variedade de conjuntos de testes com níveis de dificuldade variados, como GSM8K, MATH500, GPQA e AIME.

3

TangoFlux: Geração de Texto para Áudio Super Rápida e Fiel com Correspondência de Fluxo e Otimização de Preferência Classificada por Clap.
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

Apresentamos o TangoFlux, um modelo generativo eficiente de Texto-para-Áudio (TTA) com 515M parâmetros, capaz de gerar até 30 segundos de áudio a 44.1kHz em apenas 3.7 segundos em uma única GPU A40. Um desafio chave na alinhamento de modelos TTA reside na dificuldade de criar pares de preferência, uma vez que o TTA carece de mecanismos estruturados como recompensas verificáveis ou respostas padrão disponíveis para Modelos de Linguagem Grandes (LLMs). Para lidar com isso, propomos a Otimização de Preferência Classificada por Aprendizado de Contraste (CRPO), um novo framework que gera e otimiza iterativamente dados de preferência para aprimorar o alinhamento do TTA. Demonstramos que o conjunto de dados de preferência de áudio gerado usando o CRPO supera as alternativas existentes. Com este framework, o TangoFlux alcança desempenho de ponta em benchmarks objetivos e subjetivos. Disponibilizamos todo o código e modelos em código aberto para apoiar pesquisas futuras na geração de TTA.

4

Treinando Agentes e Verificadores de Engenharia de Software com SWE-Gym
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
24
2

Apresentamos o SWE-Gym, o primeiro ambiente para treinar agentes de engenharia de software do mundo real. O SWE-Gym contém 2.438 instâncias de tarefas de Python do mundo real, cada uma composta por uma base de código com um ambiente de execução executável, testes unitários e uma tarefa especificada em linguagem natural. Utilizamos o SWE-Gym para treinar agentes de engenharia de software baseados em modelos de linguagem, alcançando até 19% de ganhos absolutos na taxa de resolução nos populares conjuntos de testes SWE-Bench Verified e Lite. Também experimentamos com escalonamento no tempo de inferência através de verificadores treinados em trajetórias de agentes amostradas do SWE-Gym. Quando combinado com nossos agentes de SWE ajustados, alcançamos 32,0% e 26,0% no SWE-Bench Verified e Lite, respectivamente, refletindo um novo estado-da-arte para agentes de SWE de peso aberto. Para facilitar pesquisas adicionais, disponibilizamos publicamente o SWE-Gym, modelos e trajetórias de agentes.

Dec 31
Jan 1
Jan 2