Long Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks
753
Los benchmarks son herramientas importantes para seguir el rápido avance en las capacidades de los modelos de lenguaje grandes (LLM, por sus siglas en inglés). Sin embargo, los benchmarks no están manteniendo el ritmo en cuanto a dificultad: los LLMs ahora logran más del 90\% de precisión en benchmarks populares como MMLU, lo que limita la medición informada de las capacidades de vanguardia de los LLMs. En respuesta, presentamos el Examen Final de la Humanidad (HLE, por sus siglas en inglés), un benchmark multimodal en la frontera del conocimiento humano, diseñado para ser el último benchmark académico cerrado de su tipo con una amplia cobertura de temas. HLE consta de 3,000 preguntas en docenas de materias, incluyendo matemáticas, humanidades y ciencias naturales. HLE es desarrollado a nivel global por expertos en la materia y consta de preguntas de opción múltiple y respuestas cortas adecuadas para la calificación automatizada. Cada pregunta tiene una solución conocida que es inequívoca y fácilmente verificable, pero que no puede ser respondida rápidamente mediante búsqueda en internet. Los LLMs de vanguardia muestran baja precisión y calibración en HLE, resaltando una brecha significativa entre las capacidades actuales de los LLMs y la vanguardia humana experta en preguntas académicas cerradas. Para informar la investigación y la formulación de políticas con una comprensión clara de las capacidades del modelo, publicamos HLE públicamente en https://lastexam.ai.
Este documento presenta un enfoque para entrenar modelos RAG similares a o1 que recuperan y razonan sobre información relevante paso a paso antes de generar la respuesta final. Los métodos RAG convencionales suelen realizar un solo paso de recuperación antes del proceso de generación, lo que limita su efectividad para abordar consultas complejas debido a resultados de recuperación imperfectos. En contraste, nuestro método propuesto, CoRAG (Generación Aumentada con Cadena de Recuperación), permite que el modelo reformule dinámicamente la consulta basándose en el estado evolutivo. Para entrenar CoRAG de manera efectiva, utilizamos muestreo de rechazo para generar automáticamente cadenas de recuperación intermedias, aumentando así los conjuntos de datos RAG existentes que solo proporcionan la respuesta final correcta. En el momento de la prueba, proponemos varias estrategias de decodificación para escalar el cálculo del modelo en el momento de la prueba controlando la longitud y el número de cadenas de recuperación muestreadas. Los resultados experimentales en múltiples benchmarks validan la eficacia de CoRAG, especialmente en tareas de pregunta y respuesta de múltiples saltos, donde observamos una mejora de más de 10 puntos en la puntuación EM en comparación con líneas de base sólidas. En el benchmark KILT, CoRAG establece un nuevo rendimiento de vanguardia en una amplia gama de tareas intensivas en conocimiento. Además, ofrecemos análisis exhaustivos para comprender el comportamiento de escalado de CoRAG, sentando las bases para futuras investigaciones destinadas a desarrollar modelos de base factual y fundamentada.
Las críticas son importantes para mejorar el rendimiento de los Modelos de Lenguaje Grandes (LLMs), permitiendo tanto el auto-mejoramiento como la retroalimentación constructiva para otros al identificar fallos y sugerir mejoras. Sin embargo, evaluar las capacidades críticas de los LLMs presenta un desafío significativo debido a la naturaleza abierta de la tarea. En este trabajo, presentamos un nuevo punto de referencia diseñado para evaluar las capacidades críticas de los LLMs. A diferencia de los puntos de referencia existentes, que suelen funcionar de manera de circuito abierto, nuestro enfoque emplea una metodología de circuito cerrado que evalúa la calidad de las correcciones generadas a partir de las críticas. Además, el punto de referencia incorpora características como la auto-crítica, la crítica cruzada y la crítica iterativa, que son cruciales para distinguir las habilidades de los modelos de razonamiento avanzado de los más clásicos. Implementamos este punto de referencia utilizando ocho desafiantes tareas de razonamiento. Tenemos varios hallazgos interesantes. En primer lugar, a pesar de demostrar un rendimiento comparable en la generación directa de cadenas de pensamiento, los LLMs clásicos se rezagan significativamente detrás del modelo basado en razonamiento avanzado o1-mini en todos los escenarios de crítica. En segundo lugar, en configuraciones de auto-crítica y crítica iterativa, los LLMs clásicos pueden incluso rendir por debajo de sus capacidades de referencia. Esperamos que este punto de referencia sirva como un recurso valioso para orientar futuros avances. El código y los datos están disponibles en https://github.com/tangzhy/RealCritic.
Con la rápida iteración de Modelos de Lenguaje Multimodal a Gran Escala (MLLMs, por sus siglas en inglés) y las demandas en evolución del campo, el número de benchmarks producidos anualmente ha aumentado hasta alcanzar cientos. El crecimiento acelerado ha llevado inevitablemente a una redundancia significativa entre los benchmarks. Por lo tanto, es crucial dar un paso atrás y evaluar críticamente el estado actual de la redundancia, proponiendo principios específicos para la construcción de benchmarks efectivos de MLLM. En este artículo, nos enfocamos en la redundancia desde tres perspectivas clave: 1) Redundancia de las dimensiones de capacidad de los benchmarks, 2) Redundancia en el número de preguntas de prueba, y 3) Redundancia entre benchmarks dentro de dominios específicos. A través del análisis exhaustivo de cientos de rendimientos de MLLMs en más de 20 benchmarks, nuestro objetivo es medir cuantitativamente el nivel de redundancia presente en las evaluaciones de MLLM existentes, proporcionar ideas valiosas para guiar el futuro desarrollo de benchmarks de MLLM y ofrecer estrategias para refinar y abordar eficazmente los problemas de redundancia.
¿Qué pasaría si la inteligencia artificial no solo pudiera resolver problemas para los que fue entrenada, sino también aprender a enseñarse a sí misma a resolver nuevos problemas (es decir, meta-aprender)? En este estudio, demostramos que un transformer pre-entrenado, ajustado finamente con aprendizaje por refuerzo a lo largo de múltiples episodios, desarrolla la capacidad de resolver problemas que nunca ha encontrado antes, una habilidad emergente llamada Aprendizaje por Refuerzo en Contexto (ICRL). Este poderoso meta-aprendiz no solo sobresale en la resolución de entornos no vistos en distribución con una eficiencia de muestra notable, sino que también muestra un rendimiento sólido en entornos fuera de distribución. Además, demostramos que exhibe robustez ante la calidad de sus datos de entrenamiento, une sin problemas comportamientos de su contexto y se adapta a entornos no estacionarios. Estos comportamientos demuestran que un transformer entrenado con RL puede mejorar iterativamente sus propias soluciones, convirtiéndolo en un excelente solucionador de problemas de propósito general.
Shaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito
102
Proponemos Avatares Gaussianos de Códec de Cuerpo Completo Reluminables, un nuevo enfoque para modelar avatares de cuerpo completo reluminables con detalles de alta precisión, incluyendo el rostro y las manos. El desafío único al reluminar avatares de cuerpo completo radica en las grandes deformaciones causadas por la articulación del cuerpo y el impacto resultante en la apariencia causado por el transporte de luz. Los cambios en la postura del cuerpo pueden cambiar drásticamente la orientación de las superficies corporales con respecto a las luces, lo que resulta en cambios locales en la apariencia debido a cambios en las funciones locales de transporte de luz, así como cambios no locales debido a la oclusión entre las partes del cuerpo. Para abordar esto, descomponemos el transporte de luz en efectos locales y no locales. Los cambios locales en la apariencia se modelan utilizando armónicos zonales aprendibles para la transferencia de radiación difusa. A diferencia de los armónicos esféricos, los armónicos zonales son altamente eficientes para rotar bajo la articulación. Esto nos permite aprender la transferencia de radiación difusa en un marco de coordenadas local, lo que separa la transferencia de radiación local de la articulación del cuerpo. Para tener en cuenta los cambios no locales en la apariencia, introducimos una red de sombras que predice sombras dadas las irradiancias entrantes precalculadas en un mallado base. Esto facilita el aprendizaje de sombreados no locales entre las partes del cuerpo. Finalmente, utilizamos un enfoque de sombreado diferido para modelar la transferencia de radiación especular y capturar mejor reflejos y destellos como brillos en los ojos. Demostramos que nuestro enfoque modela exitosamente tanto el transporte de luz local como no local requerido para avatares de cuerpo completo reluminables, con una capacidad de generalización superior bajo condiciones de iluminación novedosas y posturas no vistas.
Los sistemas de atención médica generan continuamente vastas cantidades de registros de salud electrónicos (EHRs), comúnmente almacenados en el estándar de Recursos de Interoperabilidad Rápida de Atención Médica (FHIR). A pesar de la riqueza de información en estos registros, su complejidad y volumen dificultan a los usuarios recuperar e interpretar información crucial sobre la salud. Los avances recientes en Modelos de Lenguaje Grande (LLMs) ofrecen una solución, permitiendo la respuesta semántica a preguntas (QA) sobre datos médicos, lo que permite a los usuarios interactuar de manera más efectiva con sus registros de salud. Sin embargo, garantizar la privacidad y el cumplimiento requiere implementaciones de LLMs en entornos locales y privados.
Este documento propone un enfoque novedoso para la respuesta semántica a preguntas sobre EHRs al identificar primero los recursos FHIR más relevantes para una consulta de usuario (Tarea 1) y posteriormente responder a la consulta basándose en estos recursos (Tarea 2). Exploramos el rendimiento de LLMs afinados de forma privada, evaluándolos frente a modelos de referencia como GPT-4 y GPT-4o. Nuestros resultados demuestran que los LLMs afinados, aunque 250 veces más pequeños en tamaño, superan a los modelos de la familia GPT-4 en un 0,55% en puntuación F1 en la Tarea 1 y en un 42% en la Tarea Meteor en la Tarea 2. Además, examinamos aspectos avanzados del uso de LLMs, incluido el afinamiento secuencial, la autoevaluación del modelo (evaluación narcisista) y el impacto del tamaño de los datos de entrenamiento en el rendimiento. Los modelos y conjuntos de datos están disponibles aquí: https://huggingface.co/genloop
Akashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan
82
Los avances recientes en modelos grandes multimodales (LMMs) han reconocido el enraizamiento detallado como un factor imperativo de comprensión visual y diálogo. Sin embargo, los beneficios de tal representación en LMMs están limitados al dominio de imágenes naturales, y estos modelos tienen un rendimiento deficiente para la percepción remota (RS). La vista aérea distintiva, la variación de escala y la presencia de objetos pequeños en imágenes de alta resolución de RS presentan un desafío único en la comprensión a nivel de región. Además, el desarrollo de la capacidad de conversación enraizada de LMMs dentro de RS se ve obstaculizado por la falta de datos enraizados granulares específicos del dominio de RS. Para abordar estas limitaciones, proponemos GeoPixel, el primer RS-LMM de alta resolución de extremo a extremo que admite enraizamiento a nivel de píxel. Esta capacidad permite una percepción visual detallada generando máscaras entrelazadas en la conversación. GeoPixel admite una resolución de hasta 4K HD en cualquier relación de aspecto, ideal para análisis de imágenes de RS de alta precisión. Para respaldar la generación de conversaciones enraizadas (GCG) en imágenes de RS, creamos un conjunto de datos visualmente enraizado, GeoPixelD, a través de un proceso de generación de datos semiautomatizado que utiliza indicaciones de conjuntos de marcas y prioridades espaciales adaptadas para datos de RS para controlar metódicamente el proceso de generación de datos. GeoPixel demuestra un rendimiento superior en la comprensión a nivel de píxel, superando a los LMMs existentes tanto en tareas de segmentación de un solo objetivo como de múltiples objetivos. Nuestros estudios de ablación metodológica validan la efectividad de cada componente en la arquitectura general. Nuestro código y datos se publicarán públicamente.
Yang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas
62
Los modelos de base visual, en particular la familia ViT, han revolucionado la comprensión de imágenes al proporcionar características semánticas detalladas. Sin embargo, a pesar de su éxito en la comprensión en 2D, sus capacidades para comprender las relaciones espaciales en 3D aún no están claras. En este trabajo, evaluamos y mejoramos la conciencia en 3D de los modelos basados en ViT. Comenzamos evaluando sistemáticamente su capacidad para aprender características 3D equivariantes, examinando específicamente la consistencia de las incrustaciones semánticas en diferentes puntos de vista. Nuestros hallazgos indican que una mejor equivariancia en 3D conduce a un mejor rendimiento en diversas tareas posteriores, incluyendo estimación de postura, seguimiento y transferencia semántica. Basándonos en esta idea, proponemos una estrategia de ajuste simple pero efectiva basada en correspondencias 3D, que mejora significativamente la comprensión de correspondencias 3D de los modelos de visión existentes. Sorprendentemente, incluso el ajuste en un solo objeto durante una sola iteración resulta en ganancias de rendimiento sustanciales. Todo el código y los recursos estarán disponibles públicamente para apoyar futuros avances en modelos de visión conscientes en 3D. Nuestro código está disponible en https://github.com/qq456cvb/3DCorrEnhance.
La tecnología de prueba virtual (VTON) ha llamado la atención debido a su potencial para transformar el comercio minorista en línea al permitir la visualización realista de ropa en imágenes y videos. Sin embargo, la mayoría de los métodos existentes luchan por lograr resultados de alta calidad en tareas de prueba de imagen y video, especialmente en escenarios de video largos. En este trabajo, presentamos CatV2TON, un método simple y efectivo de prueba virtual basado en visión (V2TON) que soporta tanto tareas de prueba de imagen como de video con un solo modelo de transformador de difusión. Al concatenar temporalmente las entradas de la prenda y la persona y entrenar con una combinación de conjuntos de datos de imagen y video, CatV2TON logra un rendimiento de prueba sólido en entornos estáticos y dinámicos. Para una generación eficiente de videos largos, proponemos una estrategia de inferencia basada en clips superpuestos que utiliza orientación de fotogramas secuenciales y Normalización de Clip Adaptativa (AdaCN) para mantener la consistencia temporal con una demanda de recursos reducida. También presentamos ViViD-S, un conjunto de datos refinado de prueba de video, logrado mediante la filtración de fotogramas de espalda y la aplicación de suavizado de máscara 3D para una mayor consistencia temporal. Experimentos exhaustivos demuestran que CatV2TON supera a los métodos existentes tanto en tareas de prueba de imagen como de video, ofreciendo una solución versátil y confiable para pruebas virtuales realistas en diversos escenarios.
En el proceso de adquisición de imágenes, se introducen con frecuencia diversas formas de degradación, como ruido, bruma y lluvia. Estas degradaciones suelen surgir de las limitaciones inherentes de las cámaras o condiciones ambientales desfavorables. Para recuperar imágenes limpias a partir de versiones degradadas, se han desarrollado numerosos métodos especializados de restauración, cada uno dirigido a un tipo específico de degradación. Recientemente, los algoritmos todo en uno han captado una atención significativa al abordar diferentes tipos de degradación dentro de un solo modelo sin necesidad de información previa sobre el tipo de degradación de entrada. Sin embargo, estos métodos operan puramente en el dominio espacial y no exploran las distintas variaciones de frecuencia inherentes a los diferentes tipos de degradación. Para abordar esta brecha, proponemos una red de restauración de imágenes todo en uno adaptativa basada en minería y modulación de frecuencias. Nuestro enfoque está motivado por la observación de que diferentes tipos de degradación afectan el contenido de la imagen en diferentes subbandas de frecuencia, lo que requiere tratamientos diferentes para cada tarea de restauración. Específicamente, primero extraemos información de baja y alta frecuencia de las características de entrada, guiados por los espectros adaptativamente desacoplados de la imagen degradada. Luego, las características extraídas son moduladas por un operador bidireccional para facilitar interacciones entre diferentes componentes de frecuencia. Finalmente, las características moduladas se fusionan con la entrada original para una restauración guiada de forma progresiva. Con este enfoque, el modelo logra una reconstrucción adaptativa al acentuar las subbandas de frecuencia informativas según las diferentes degradaciones de entrada. Experimentos extensos demuestran que el método propuesto logra un rendimiento de vanguardia en diferentes tareas de restauración de imágenes, incluyendo eliminación de ruido, deshazado, desrainado, desenfoque por movimiento y mejora de imágenes con poca luz. Nuestro código está disponible en https://github.com/c-yn/AdaIR.
Kang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy
32
Aunque los métodos de restauración de imágenes basados en aprendizaje han avanzado significativamente, aún enfrentan dificultades en la generalización limitada a escenarios del mundo real debido a la brecha de dominio sustancial causada por el entrenamiento en datos sintéticos. Los métodos existentes abordan este problema mejorando los flujos de síntesis de datos, estimando núcleos de degradación, empleando aprendizaje interno profundo y realizando adaptación de dominio y regularización. Los métodos previos de adaptación de dominio han buscado reducir la brecha de dominio mediante el aprendizaje de conocimientos invariables al dominio en el espacio de características o píxeles. Sin embargo, estas técnicas a menudo tienen dificultades para extenderse a tareas de visión de bajo nivel dentro de un marco estable y compacto. En este documento, mostramos que es posible realizar adaptación de dominio a través del espacio de ruido utilizando modelos de difusión. En particular, al aprovechar la propiedad única de cómo las entradas condicionales auxiliares influyen en el proceso de eliminación de ruido de múltiples pasos, derivamos una pérdida de difusión significativa que guía al modelo de restauración en alinear progresivamente tanto las salidas restauradas sintéticas como del mundo real con una distribución limpia objetivo. Nos referimos a este método como adaptación mediante eliminación de ruido. Para evitar atajos durante el entrenamiento conjunto, presentamos estrategias cruciales como la capa de reordenamiento de canales y el aprendizaje contrastivo de intercambio residual en el modelo de difusión. Estas difuminan implícitamente los límites entre datos sintéticos condicionados y reales y evitan la dependencia del modelo en características fácilmente distinguibles. Los resultados experimentales en tres tareas clásicas de restauración de imágenes, a saber, eliminación de ruido, desenfoque y eliminación de lluvia, demuestran la efectividad del método propuesto.