ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrezziAccountSpazio di lavoro

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Articoli di Ricerca IA Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

1

Portare gli oggetti alla vita: generazione 4D da oggetti 3D
Bringing Objects to Life: 4D generation from 3D objects

Dec 29
ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
40
2

I recenti progressi nella modellazione generativa consentono ora la creazione di contenuti 4D (oggetti 3D in movimento) controllati da prompt di testo. La generazione 4D ha un grande potenziale in applicazioni come mondi virtuali, media e videogiochi, ma i metodi esistenti offrono un controllo limitato sull'aspetto e sulla geometria dei contenuti generati. In questo lavoro, presentiamo un metodo per animare oggetti 3D forniti dall'utente condizionandoli con prompt testuali per guidare la generazione 4D, consentendo animazioni personalizzate mantenendo l'identità dell'oggetto originale. Prima convertiamo una mesh 3D in un "statico" campo di radianza neurale (NeRF) 4D che conserva gli attributi visivi dell'oggetto in ingresso. Successivamente, animiamo l'oggetto utilizzando un modello di diffusione immagine-video guidato dal testo. Per migliorare il realismo del movimento, introduciamo un protocollo incrementale di selezione del punto di vista per campionare prospettive al fine di promuovere un movimento realistico e una perdita di campionamento di distillazione del punteggio mascherato (SDS), che sfrutta mappe di attenzione per concentrare l'ottimizzazione sulle regioni rilevanti. Valutiamo il nostro modello in termini di coerenza temporale, aderenza ai prompt e fedeltà visiva e scopriamo che il nostro metodo supera le baselines basate su altri approcci, raggiungendo fino a triplici miglioramenti nella conservazione dell'identità misurata utilizzando i punteggi LPIPS, e bilanciando efficacemente la qualità visiva con i contenuti dinamici.

2

Non pensare troppo per 2+3=? Sull'eccessiva riflessione dei LLM simili a o1
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30
ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
40
2

La notevole performance dei modelli come l'OpenAI o1 può essere attribuita alla loro capacità di emulare un pensiero a lungo termine simile a quello umano durante l'infertenza. Questi modelli impiegano processi estesi di concatenazione del pensiero (CoT), esplorando diverse strategie per potenziare le capacità di risoluzione dei problemi. Tuttavia, rimane una domanda critica: come scalare in modo intelligente ed efficiente le risorse computazionali durante i test. Questo articolo presenta il primo studio esaustivo sulla diffusa problematica dell'eccessiva riflessione in questi modelli, in cui vengono allocate risorse computazionali eccessive per problemi semplici con benefici minimi. Introduciamo nuove metriche di efficienza sia dal punto di vista dell'esito che del processo per valutare l'uso razionale delle risorse computazionali da parte dei modelli simili a o1. Utilizzando un paradigma di auto-apprendimento, proponiamo strategie per mitigare l'eccessiva riflessione, razionalizzando i processi di ragionamento senza compromettere l'accuratezza. I risultati sperimentali mostrano che il nostro approccio riduce con successo il sovraccarico computazionale preservando al contempo le prestazioni del modello su una serie di set di test con diversi livelli di difficoltà, come GSM8K, MATH500, GPQA e AIME.

3

TangoFlux: Generazione super veloce e fedele di testo in audio con corrispondenza di flusso e ottimizzazione delle preferenze classificate con applausi.
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

Introduciamo TangoFlux, un efficiente modello generativo Testo-a-Audio (TTA) con 515 milioni di parametri, in grado di generare fino a 30 secondi di audio a 44,1kHz in soli 3,7 secondi su una singola GPU A40. Una sfida chiave nell'allineare i modelli TTA risiede nella difficoltà di creare coppie di preferenze, poiché il TTA manca di meccanismi strutturati come ricompense verificabili o risposte di standard d'oro disponibili per i Grandi Modelli Linguistici (LLM). Per affrontare questo problema, proponiamo Ottimizzazione delle Preferenze Classificate con Apprendimento Continuo (CRPO), un nuovo framework che genera e ottimizza iterativamente dati di preferenza per migliorare l'allineamento del TTA. Dimostriamo che il dataset di preferenze audio generato utilizzando CRPO supera le alternative esistenti. Con questo framework, TangoFlux raggiunge prestazioni all'avanguardia su entrambi i benchmark oggettivi e soggettivi. Rendiamo open source tutto il codice e i modelli per sostenere ulteriori ricerche nella generazione TTA.

4

Addestramento di Agenti e Verificatori di Ingegneria del Software con SWE-Gym
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
24
2

Presentiamo SWE-Gym, il primo ambiente per addestrare agenti di ingegneria del software (SWE) del mondo reale. SWE-Gym contiene 2.438 istanze di compiti Python del mondo reale, ognuna composta da una base di codice con un ambiente di esecuzione eseguibile, test di unità e un compito specificato in linguaggio naturale. Utilizziamo SWE-Gym per addestrare agenti SWE basati su modelli linguistici, ottenendo fino al 19% di guadagni assoluti nella percentuale di risoluzione sui popolari set di test SWE-Bench Verified e Lite. Sperimentiamo anche con la scalabilità al momento dell'inferenza attraverso verificatori addestrati su traiettorie degli agenti campionate da SWE-Gym. Quando combinato con i nostri agenti SWE ottimizzati, otteniamo il 32,0% e il 26,0% su SWE-Bench Verified e Lite, rispettivamente, riflettendo un nuovo stato dell'arte per agenti SWE open-weight. Per facilitare ulteriori ricerche, rilasciamo pubblicamente SWE-Gym, modelli e traiettorie degli agenti.

Dec 31
Jan 1
Jan 2