ChatPaper.aiChatPaper.ai
Inicio

arXiv

HuggingFace

PreciosCuentaEspacio de trabajo

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artículos de Investigación en IA Diarios

Artículos de investigación en IA seleccionados diariamente con traducciones

1

Gemini 1.5: Desbloqueando la comprensión multimodal a través de millones de tokens de contexto
Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

Mar 8
ByMachel Reid, Nikolay Savinov, Denis Teplyashin, Dmitry Lepikhin, Timothy Lillicrap, Jean-baptiste Alayrac, Radu Soricut, Angeliki Lazaridou, Orhan Firat, Julian Schrittwieser, Ioannis Antonoglou, Rohan Anil, Sebastian Borgeaud, Andrew Dai, Katie Millican, Ethan Dyer, Mia Glaese, Thibault Sottiaux, Benjamin Lee, Fabio Viola, Malcolm Reynolds, Yuanzhong Xu, James Molloy, Jilin Chen, Michael Isard, Paul Barham, Tom Hennigan, Ross McIlroy, Melvin Johnson, Johan Schalkwyk, Eli Collins, Eliza Rutherford, Erica Moreira, Kareem Ayoub, Megha Goel, Clemens Meyer, Gregory Thornton, Zhen Yang, Henryk Michalewski, Zaheer Abbas, Nathan Schucher, Ankesh Anand, Richard Ives, James Keeling, Karel Lenc, Salem Haykal, Siamak Shakeri, Pranav Shyam, Aakanksha Chowdhery, Roman Ring, Stephen Spencer, Eren Sezener, Luke Vilnis, Oscar Chang, Nobuyuki Morioka, George Tucker, Ce Zheng, Oliver Woodman, Nithya Attaluri, Tomas Kocisky, Evgenii Eltyshev, Xi Chen, Timothy Chung, Vittorio Selo, Siddhartha Brahma, Petko Georgiev, Ambrose Slone, Zhenkai Zhu, James Lottes, Siyuan Qiao, Ben Caine, Sebastian Riedel, Alex Tomala, Martin Chadwick, Juliette Love, Peter Choy, Sid Mittal, Neil Houlsby, Yunhao Tang, Matthew Lamm, Libin Bai, Qiao Zhang, Luheng He, Yong Cheng, Peter Humphreys, Yujia Li, Sergey Brin, Albin Cassirer, Yingjie Miao, Lukas Zilka, Taylor Tobin, Kelvin Xu, Lev Proleev, Daniel Sohn, Alberto Magni, Lisa Anne Hendricks, Isabel Gao, Santiago Ontañón, Oskar Bunyan, Nathan Byrd, Abhanshu Sharma, Biao Zhang, Mario Pinto, Rishika Sinha, Harsh Mehta, Dawei Jia, Sergi Caelles, Albert Webson, Alex Morris, Becca Roelofs, Yifan Ding, Robin Strudel, Xuehan Xiong, Marvin Ritter, Mostafa Dehghani, Rahma Chaabouni, Abhijit Karmarkar, Guangda Lai, Fabian Mentzer, Bibo Xu, YaGuang Li, Yujing Zhang, Tom Le Paine, Alex Goldin, Behnam Neyshabur, Kate Baumli, Anselm Levskaya, Michael Laskin, Wenhao Jia, Jack W. Rae, Kefan Xiao, Antoine He, Skye Giordano, Lakshman Yagati, Jean-Baptiste Lespiau, Paul Natsev, Sanjay Ganapathy, Fangyu Liu, Danilo Martins, Nanxin Chen, Yunhan Xu, Megan Barnes, Rhys May, Arpi Vezer, Junhyuk Oh, Ken Franko, Sophie Bridgers, Ruizhe Zhao, Boxi Wu, Basil Mustafa, Sean Sechrist, Emilio Parisotto, Thanumalayan Sankaranarayana Pillai, Chris Larkin, Chenjie Gu, Christina Sorokin, Maxim Krikun, Alexey Guseynov, Jessica Landon, Romina Datta, Alexander Pritzel, Phoebe Thacker, Fan Yang, Kevin Hui, Anja Hauth, Chih-Kuan Yeh, David Barker, Justin Mao-Jones, Sophia Austin, Hannah Sheahan, Parker Schuh, James Svensson, Rohan Jain, Vinay Ramasesh, Anton Briukhov, Da-Woon Chung, Tamara von Glehn, Christina Butterfield, Priya Jhakra, Matthew Wiethoff, Justin Frye, Jordan Grimstad, Beer Changpinyo, Charline Le Lan, Anna Bortsova, Yonghui Wu, Paul Voigtlaender, Tara Sainath, Charlotte Smith, Will Hawkins, Kris Cao, James Besley, Srivatsan Srinivasan, Mark Omernick, Colin Gaffney, Gabriela Surita, Ryan Burnell, Bogdan Damoc, Junwhan Ahn, Andrew Brock, Mantas Pajarskas, Anastasia Petrushkina, Seb Noury, Lorenzo Blanco, Kevin Swersky, Arun Ahuja, Thi Avrahami, Vedant Misra, Raoul de Liedekerke, Mariko Iinuma, Alex Polozov, Sarah York, George van den Driessche, Paul Michel, Justin Chiu, Rory Blevins, Zach Gleicher, Adrià Recasens, Alban Rrustemi, Elena Gribovskaya, Aurko Roy, Wiktor Gworek, Séb Arnold, Lisa Lee, James Lee-Thorp, Marcello Maggioni, Enrique Piqueras, Kartikeya Badola, Sharad Vikram, Lucas Gonzalez, Anirudh Baddepudi, Evan Senter, Jacob Devlin, James Qin, Michael Azzam, Maja Trebacz, Martin Polacek, Kashyap Krishnakumar, Shuo-yiin Chang, Matthew Tung, Ivo Penchev, Rishabh Joshi, Kate Olszewska, Carrie Muir, Mateo Wirth, Ale Jakse Hartman, Josh Newlan, Sheleem Kashem, Vijay Bolina, Elahe Dabir, Joost van Amersfoort, Zafarali Ahmed, James Cobon-Kerr, Aishwarya Kamath, Arnar Mar Hrafnkelsson, Le Hou, Ian Mackinnon, Alexandre Frechette, Eric Noland, Xiance Si, Emanuel Taropa, Dong Li, Phil Crone, Anmol Gulati, Sébastien Cevey, Jonas Adler, Ada Ma, David Silver, Simon Tokumine, Richard Powell, Stephan Lee, Michael Chang, Samer Hassan, Diana Mincu, Antoine Yang, Nir Levine, Jenny Brennan, Mingqiu Wang, Sarah Hodkinson, Jeffrey Zhao, Josh Lipschultz, Aedan Pope, Michael B. Chang, Cheng Li, Laurent El Shafey, Michela Paganini, Sholto Douglas, Bernd Bohnet, Fabio Pardo, Seth Odoom, Mihaela Rosca, Cicero Nogueira dos Santos, Kedar Soparkar, Arthur Guez, Tom Hudson, Steven Hansen, Chulayuth Asawaroengchai, Ravi Addanki, Tianhe Yu, Wojciech Stokowiec, Mina Khan, Justin Gilmer, Jaehoon Lee, Carrie Grimes Bostock, Keran Rong, Jonathan Caton, Pedram Pejman, Filip Pavetic, Geoff Brown, Vivek Sharma, Mario Lučić, Rajkumar Samuel, Josip Djolonga, Amol Mandhane, Lars Lowe Sjösund, Elena Buchatskaya, Elspeth White, Natalie Clay, Jiepu Jiang, Hyeontaek Lim, Ross Hemsley, Jane Labanowski, Nicola De Cao, David Steiner, Sayed Hadi Hashemi, Jacob Austin, Anita Gergely, Tim Blyth, Joe Stanton, Kaushik Shivakumar, Aditya Siddhant, Anders Andreassen, Carlos Araya, Nikhil Sethi, Rakesh Shivanna, Steven Hand, Ankur Bapna, Ali Khodaei, Antoine Miech, Garrett Tanzer, Andy Swing, Shantanu Thakoor, Zhufeng Pan, Zachary Nado, Stephanie Winkler, Dian Yu, Mohammad Saleh, Loren Maggiore, Iain Barr, Minh Giang, Thais Kagohara, Ivo Danihelka, Amit Marathe, Vladimir Feinberg, Mohamed Elhawaty, Nimesh Ghelani, Dan Horgan, Helen Miller, Lexi Walker, Richard Tanburn, Mukarram Tariq, Disha Shrivastava, Fei Xia, Chung-Cheng Chiu, Zoe Ashwood, Khuslen Baatarsukh, Sina Samangooei, Fred Alcober, Axel Stjerngren, Paul Komarek, Katerina Tsihlas, Anudhyan Boral, Ramona Comanescu, Jeremy Chen, Ruibo Liu, Dawn Bloxwich, Charlie Chen, Yanhua Sun, Fangxiaoyu Feng, Matthew Mauger, Xerxes Dotiwalla, Vincent Hellendoorn, Michael Sharman, Ivy Zheng, Krishna Haridasan, Gabe Barth-Maron, Craig Swanson, Dominika Rogozińska, Alek Andreev, Paul Kishan Rubenstein, Ruoxin Sang, Dan Hurt, Gamaleldin Elsayed, Renshen Wang, Dave Lacey, Anastasija Ilić, Yao Zhao, Lora Aroyo, Chimezie Iwuanyanwu, Vitaly Nikolaev, Balaji Lakshminarayanan, Sadegh Jazayeri, Raphaël Lopez Kaufman, Mani Varadarajan, Chetan Tekur, Doug Fritz, Misha Khalman, David Reitter, Kingshuk Dasgupta, Shourya Sarcar, Tina Ornduff, Javier Snaider, Fantine Huot, Johnson Jia, Rupert Kemp, Nejc Trdin, Anitha Vijayakumar, Lucy Kim, Christof Angermueller, Li Lao, Tianqi Liu, Haibin Zhang, David Engel, Somer Greene, Anaïs White, Jessica Austin, Lilly Taylor, Shereen Ashraf, Dangyi Liu, Maria Georgaki, Irene Cai, Yana Kulizhskaya, Sonam Goenka, Brennan Saeta, Kiran Vodrahalli, Christian Frank, Dario de Cesare, Brona Robenek, Harry Richardson, Mahmoud Alnahlawi, Christopher Yew, Priya Ponnapalli, Marco Tagliasacchi, Alex Korchemniy, Yelin Kim, Dinghua Li, Bill Rosgen, Zoe Ashwood, Kyle Levin, Jeremy Wiesner, Praseem Banzal, Praveen Srinivasan, Hongkun Yu, Çağlar Ünlü, David Reid, Zora Tung, Daniel Finchelstein, Ravin Kumar, Andre Elisseeff, Jin Huang, Ming Zhang, Rui Zhu, Ricardo Aguilar, Mai Giménez, Jiawei Xia, Olivier Dousse, Willi Gierke, Soheil Hassas Yeganeh, Damion Yates, Komal Jalan, Lu Li, Eri Latorre-Chimoto, Duc Dung Nguyen, Ken Durden, Praveen Kallakuri, Yaxin Liu, Matthew Johnson, Tomy Tsai, Alice Talbert, Jasmine Liu, Alexander Neitz, Chen Elkind, Marco Selvi, Mimi Jasarevic, Livio Baldini Soares, Albert Cui, Pidong Wang, Alek Wenjiao Wang, Xinyu Ye, Krystal Kallarackal, Lucia Loher, Hoi Lam, Josef Broder, Dan Holtmann-Rice, Nina Martin, Bramandia Ramadhana, Daniel Toyama, Mrinal Shukla, Sujoy Basu, Abhi Mohan, Nick Fernando, Noah Fiedel, Kim Paterson, Hui Li, Ankush Garg, Jane Park, DongHyun Choi, Diane Wu, Sankalp Singh, Zhishuai Zhang, Amir Globerson, Lily Yu, John Carpenter, Félix de Chaumont Quitry, Carey Radebaugh, Chu-Cheng Lin, Alex Tudor, Prakash Shroff, Drew Garmon, Dayou Du, Neera Vats, Han Lu, Shariq Iqbal, Alex Yakubovich, Nilesh Tripuraneni, James Manyika, Haroon Qureshi, Nan Hua, Christel Ngani, Maria Abi Raad, Hannah Forbes, Anna Bulanova, Jeff Stanway, Mukund Sundararajan, Victor Ungureanu, Colton Bishop, Yunjie Li, Balaji Venkatraman, Bo Li, Chloe Thornton, Salvatore Scellato, Nishesh Gupta, Yicheng Wang, Ian Tenney, Xihui Wu, Ashish Shenoy, Gabriel Carvajal, Diana Gage Wright, Ben Bariach, Zhuyun Xiao, Peter Hawkins, Sid Dalmia, Clement Farabet, Pedro Valenzuela, Quan Yuan, Chris Welty, Ananth Agarwal, Mia Chen, Wooyeol Kim, Brice Hulse, Nandita Dukkipati, Adam Paszke, Andrew Bolt, Elnaz Davoodi, Kiam Choo, Jennifer Beattie, Jennifer Prendki, Harsha Vashisht, Rebeca Santamaria-Fernandez, Luis C. Cobo, Jarek Wilkiewicz, David Madras, Ali Elqursh, Grant Uy, Kevin Ramirez, Matt Harvey, Tyler Liechty, Heiga Zen, Jeff Seibert, Clara Huiyi Hu, Mohamed Elhawaty, Andrey Khorlin, Maigo Le, Asaf Aharoni, Megan Li, Lily Wang, Sandeep Kumar, Alejandro Lince, Norman Casagrande, Jay Hoover, Dalia El Badawy, David Soergel, Denis Vnukov, Matt Miecnikowski, Jiri Simsa, Anna Koop, Praveen Kumar, Thibault Sellam, Daniel Vlasic, Samira Daruki, Nir Shabat, John Zhang, Guolong Su, Jiageng Zhang, Jeremiah Liu, Yi Sun, Evan Palmer, Alireza Ghaffarkhah, Xi Xiong, Victor Cotruta, Michael Fink, Lucas Dixon, Ashwin Sreevatsa, Adrian Goedeckemeyer, Alek Dimitriev, Mohsen Jafari, Remi Crocker, Nicholas FitzGerald, Aviral Kumar, Sanjay Ghemawat, Ivan Philips, Frederick Liu, Yannie Liang, Rachel Sterneck, Alena Repina, Marcus Wu, Laura Knight, Marin Georgiev, Hyo Lee, Harry Askham, Abhishek Chakladar, Annie Louis, Carl Crous, Hardie Cate, Dessie Petrova, Michael Quinn, Denese Owusu-Afriyie, Achintya Singhal, Nan Wei, Solomon Kim, Damien Vincent, Milad Nasr, Christopher A. Choquette-Choo, Reiko Tojo, Shawn Lu, Diego de Las Casas, Yuchung Cheng, Tolga Bolukbasi, Katherine Lee, Saaber Fatehi, Rajagopal Ananthanarayanan, Miteyan Patel, Charbel Kaed, Jing Li, Jakub Sygnowski, Shreyas Rammohan Belle, Zhe Chen, Jaclyn Konzelmann, Siim Põder, Roopal Garg, Vinod Koverkathu, Adam Brown, Chris Dyer, Rosanne Liu, Azade Nova, Jun Xu, Slav Petrov, Demis Hassabis, Koray Kavukcuoglu, Jeffrey Dean, Oriol Vinyals
66
6

En este informe, presentamos el último modelo de la familia Gemini, Gemini 1.5 Pro, un modelo multimodal de mezcla de expertos altamente eficiente en cómputo, capaz de recordar y razonar sobre información detallada a partir de millones de tokens de contexto, incluyendo múltiples documentos extensos y horas de video y audio. Gemini 1.5 Pro logra un recuerdo casi perfecto en tareas de recuperación de contexto largo a través de modalidades, mejora el estado del arte en preguntas y respuestas sobre documentos extensos, preguntas y respuestas sobre videos largos y reconocimiento automático de voz en contextos largos, y coincide o supera el rendimiento de vanguardia de Gemini 1.0 Ultra en un amplio conjunto de benchmarks. Al estudiar los límites de la capacidad de contexto largo de Gemini 1.5 Pro, encontramos una mejora continua en la predicción del siguiente token y una recuperación casi perfecta (>99%) hasta al menos 10 millones de tokens, un salto generacional sobre modelos existentes como Claude 2.1 (200k) y GPT-4 Turbo (128k). Finalmente, destacamos nuevas capacidades sorprendentes de los modelos de lenguaje grandes en la frontera; cuando se le proporciona un manual de gramática para el kalamang, un idioma con menos de 200 hablantes en todo el mundo, el modelo aprende a traducir del inglés al kalamang a un nivel similar al de una persona que aprendió a partir del mismo contenido.

2

DeepSeek-VL: Hacia la Comprensión del Lenguaje Visual en el Mundo Real
DeepSeek-VL: Towards Real-World Vision-Language Understanding

Mar 8
ByHaoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, Chong Ruan
46
4

Presentamos DeepSeek-VL, un modelo de Visión-Lenguaje (VL) de código abierto diseñado para aplicaciones de comprensión visual y lingüística en el mundo real. Nuestro enfoque se estructura en torno a tres dimensiones clave: Nos esforzamos por garantizar que nuestros datos sean diversos, escalables y cubran extensamente escenarios del mundo real, incluyendo capturas de pantalla web, PDFs, OCR, gráficos y contenido basado en conocimiento, con el objetivo de lograr una representación integral de contextos prácticos. Además, creamos una taxonomía de casos de uso a partir de escenarios reales de usuarios y construimos un conjunto de datos de ajuste de instrucciones en consecuencia. El ajuste fino con este conjunto de datos mejora sustancialmente la experiencia del usuario en aplicaciones prácticas. Teniendo en cuenta la eficiencia y las demandas de la mayoría de los escenarios del mundo real, DeepSeek-VL incorpora un codificador visual híbrido que procesa eficientemente imágenes de alta resolución (1024 x 1024), manteniendo un costo computacional relativamente bajo. Esta elección de diseño asegura la capacidad del modelo para capturar información semántica crítica y detalles en diversas tareas visuales. Postulamos que un modelo de Visión-Lenguaje competente debe, ante todo, poseer fuertes habilidades lingüísticas. Para garantizar la preservación de las capacidades del LLM durante el preentrenamiento, investigamos una estrategia efectiva de preentrenamiento VL integrando el entrenamiento del LLM desde el principio y gestionando cuidadosamente la dinámica competitiva observada entre las modalidades de visión y lenguaje. La familia DeepSeek-VL (tanto los modelos de 1.3B como de 7B) demuestra experiencias de usuario superiores como un chatbot de visión-lenguaje en aplicaciones del mundo real, logrando un rendimiento de vanguardia o competitivo en una amplia gama de benchmarks visual-lingüísticos con el mismo tamaño de modelo, mientras mantiene un rendimiento robusto en benchmarks centrados en el lenguaje. Hemos hecho accesibles públicamente tanto los modelos de 1.3B como de 7B para fomentar innovaciones basadas en este modelo fundacional.

3

ELLA: Equipar Modelos de Difusión con LLM para una Mejor Alineación Semántica
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment

Mar 8
ByXiwei Hu, Rui Wang, Yixiao Fang, Bin Fu, Pei Cheng, Gang Yu
45
2

Los modelos de difusión han demostrado un rendimiento notable en el dominio de la generación de texto a imagen. Sin embargo, la mayoría de los modelos ampliamente utilizados aún emplean CLIP como su codificador de texto, lo que limita su capacidad para comprender instrucciones densas, que abarcan múltiples objetos, atributos detallados, relaciones complejas, alineación de texto largo, etc. En este artículo, presentamos un Adaptador Eficiente de Modelos de Lenguaje Grande, denominado ELLA, que equipa a los modelos de difusión de texto a imagen con potentes Modelos de Lenguaje Grande (LLM) para mejorar la alineación del texto sin necesidad de entrenar ni la U-Net ni el LLM. Para conectar de manera fluida dos modelos preentrenados, investigamos una variedad de diseños de conectores de alineación semántica y proponemos un nuevo módulo, el Conector Semántico Consciente del Paso de Tiempo (TSC), que extrae dinámicamente condiciones dependientes del paso de tiempo del LLM. Nuestro enfoque adapta las características semánticas en diferentes etapas del proceso de eliminación de ruido, ayudando a los modelos de difusión a interpretar instrucciones largas y complejas a lo largo de los pasos de muestreo. Además, ELLA puede integrarse fácilmente con modelos y herramientas de la comunidad para mejorar sus capacidades de seguimiento de instrucciones. Para evaluar los modelos de texto a imagen en el seguimiento de instrucciones densas, presentamos el Benchmark de Gráficos de Instrucciones Densas (DPG-Bench), un punto de referencia desafiante que consta de 1K instrucciones densas. Experimentos extensos demuestran la superioridad de ELLA en el seguimiento de instrucciones densas en comparación con los métodos más avanzados, particularmente en composiciones de múltiples objetos que involucran diversos atributos y relaciones.

4

Recomendaciones personalizadas de audiolibros en Spotify mediante redes neuronales de grafos
Personalized Audiobook Recommendations at Spotify Through Graph Neural Networks

Mar 8
ByMarco De Nadai, Francesco Fabbri, Paul Gigioli, Alice Wang, Ang Li, Fabrizio Silvestri, Laura Kim, Shawn Lin, Vladan Radosavljevic, Sandeep Ghael, David Nyhan, Hugues Bouchard, Mounia Lalmas-Roelleke, Andreas Damianou
25
1

En el panorama digital del audio en constante evolución, Spotify, conocido por su contenido musical y de charlas, ha introducido recientemente audiolibros a su amplia base de usuarios. Aunque prometedor, este movimiento presenta desafíos significativos para las recomendaciones personalizadas. A diferencia de la música y los podcasts, los audiolibros, inicialmente disponibles por un costo, no pueden ser fácilmente hojeados antes de la compra, lo que aumenta la importancia de la relevancia de las recomendaciones. Además, la introducción de un nuevo tipo de contenido en una plataforma existente enfrenta una extrema escasez de datos, ya que la mayoría de los usuarios no están familiarizados con este nuevo tipo de contenido. Por último, recomendar contenido a millones de usuarios requiere que el modelo reaccione rápidamente y sea escalable. Para abordar estos desafíos, aprovechamos las preferencias de los usuarios de podcasts y música e introducimos 2T-HGNN, un sistema de recomendación escalable que comprende Redes Neuronales de Grafos Heterogéneos (HGNNs) y un modelo de Dos Torres (2T). Este enfoque novedoso descubre relaciones matizadas entre los ítems mientras asegura baja latencia y complejidad. Desacoplamos a los usuarios del grafo HGNN y proponemos un innovador muestreador de vecinos multi-enlace. Estas elecciones, junto con el componente 2T, reducen significativamente la complejidad del modelo HGNN. Las evaluaciones empíricas que involucran a millones de usuarios muestran una mejora significativa en la calidad de las recomendaciones personalizadas, resultando en un aumento del +46% en la tasa de inicio de nuevos audiolibros y un incremento del +23% en las tasas de streaming. Curiosamente, el impacto de nuestro modelo se extiende más allá de los audiolibros, beneficiando a productos establecidos como los podcasts.

5

CogView3: Generación de imágenes a partir de texto más precisa y rápida mediante difusión en relevo
CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion

Mar 8
ByWendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang
24
3

Los avances recientes en los sistemas generativos de texto a imagen han estado impulsados en gran medida por los modelos de difusión. Sin embargo, los modelos de difusión de texto a imagen de una sola etapa aún enfrentan desafíos en términos de eficiencia computacional y refinamiento de detalles de la imagen. Para abordar este problema, proponemos CogView3, un marco innovador en cascada que mejora el rendimiento de la difusión de texto a imagen. CogView3 es el primer modelo que implementa la difusión en relevos en el ámbito de la generación de texto a imagen, ejecutando la tarea creando primero imágenes de baja resolución y aplicando posteriormente una super-resolución basada en relevos. Esta metodología no solo produce resultados competitivos en la generación de texto a imagen, sino que también reduce significativamente los costos tanto de entrenamiento como de inferencia. Nuestros resultados experimentales demuestran que CogView3 supera a SDXL, el modelo de difusión de texto a imagen de código abierto más avanzado actualmente, en un 77.0\% en evaluaciones humanas, todo ello requiriendo solo aproximadamente la mitad del tiempo de inferencia. La variante destilada de CogView3 logra un rendimiento comparable utilizando solo 1/10 del tiempo de inferencia de SDXL.

6

CRM: Malla Texturizada 3D a partir de una Imagen Única con Modelo de Reconstrucción Convolucional
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model

Mar 8
ByZhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu
22
2

Los modelos generativos feed-forward 3D, como el Large Reconstruction Model (LRM), han demostrado una velocidad de generación excepcional. Sin embargo, los métodos basados en transformers no aprovechan los priors geométricos del componente triplano en su arquitectura, lo que a menudo resulta en una calidad subóptima debido al tamaño limitado de los datos 3D y al entrenamiento lento. En este trabajo, presentamos el Convolutional Reconstruction Model (CRM), un modelo generativo feed-forward de imagen única a 3D de alta fidelidad. Reconociendo las limitaciones impuestas por los datos 3D escasos, destacamos la necesidad de integrar priors geométricos en el diseño de la red. CRM se basa en la observación clave de que la visualización del triplano exhibe una correspondencia espacial de seis imágenes ortográficas. Primero, genera seis imágenes de vista ortográfica a partir de una única imagen de entrada, luego alimenta estas imágenes en una U-Net convolucional, aprovechando sus fuertes capacidades de alineación a nivel de píxel y su ancho de banda significativo para crear un triplano de alta resolución. CRM además emplea Flexicubes como representación geométrica, facilitando la optimización directa de extremo a extremo en mallas texturizadas. En general, nuestro modelo entrega una malla texturizada de alta fidelidad a partir de una imagen en solo 10 segundos, sin ninguna optimización en tiempo de prueba.

7

VideoElevator: Elevando la Calidad de Generación de Videos con Modelos de Difusión Versátiles de Texto a Imagen
VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models

Mar 8
ByYabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo
21
1

Los modelos de difusión de texto a imagen (T2I) han demostrado capacidades sin precedentes en la creación de imágenes realistas y estéticas. Por el contrario, los modelos de difusión de texto a video (T2V) aún están muy rezagados en cuanto a la calidad de los fotogramas y la alineación con el texto, debido a la insuficiente calidad y cantidad de videos de entrenamiento. En este artículo, presentamos VideoElevator, un método sin necesidad de entrenamiento y de tipo plug-and-play, que mejora el rendimiento de T2V utilizando las capacidades superiores de T2I. A diferencia del muestreo convencional de T2V (es decir, modelado temporal y espacial), VideoElevator descompone explícitamente cada paso de muestreo en refinamiento de movimiento temporal y elevación de calidad espacial. Específicamente, el refinamiento de movimiento temporal utiliza T2V encapsulado para mejorar la consistencia temporal, seguido de la inversión a la distribución de ruido requerida por T2I. Luego, la elevación de calidad espacial aprovecha T2I inflado para predecir directamente un latente menos ruidoso, añadiendo detalles más fotorrealistas. Hemos realizado experimentos con una amplia variedad de prompts bajo la combinación de varios T2V y T2I. Los resultados muestran que VideoElevator no solo mejora el rendimiento de las líneas base de T2V con T2I fundamental, sino que también facilita la síntesis de videos estilizados con T2I personalizado. Nuestro código está disponible en https://github.com/YBYBZhang/VideoElevator.

Mar 8
Mar 11
Mar 12