Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

O Último Exame da Humanidade
Humanity's Last Exam

Jan 24

ByLong Phan, Alice Gatti, Ziwen Han, Nathaniel Li, Josephina Hu, Hugh Zhang, Sean Shi, Michael Choi, Anish Agrawal, Arnav Chopra, Adam Khoja, Ryan Kim, Jason Hausenloy, Oliver Zhang, Mantas Mazeika, Daron Anderson, Tung Nguyen, Mobeen Mahmood, Fiona Feng, Steven Y. Feng, Haoran Zhao, Michael Yu, Varun Gangal, Chelsea Zou, Zihan Wang, Jessica P. Wang, Pawan Kumar, Oleksandr Pokutnyi, Robert Gerbicz, Serguei Popov, John-Clark Levin, Mstyslav Kazakov, Johannes Schmitt, Geoff Galgon, Alvaro Sanchez, Yongki Lee, Will Yeadon, Scott Sauers, Marc Roth, Chidozie Agu, Søren Riis, Fabian Giska, Saiteja Utpala, Zachary Giboney, Gashaw M. Goshu, Joan of Arc Xavier, Sarah-Jane Crowson, Mohinder Maheshbhai Naiya, Noah Burns, Lennart Finke, Zerui Cheng, Hyunwoo Park, Francesco Fournier-Facio, John Wydallis, Mark Nandor, Ankit Singh, Tim Gehrunger, Jiaqi Cai, Ben McCarty, Darling Duclosel, Jungbae Nam, Jennifer Zampese, Ryan G. Hoerr, Aras Bacho, Gautier Abou Loume, Abdallah Galal, Hangrui Cao, Alexis C Garretson, Damien Sileo, Qiuyu Ren, Doru Cojoc, Pavel Arkhipov, Usman Qazi, Lianghui Li, Sumeet Motwani, Christian Schroeder de Witt, Edwin Taylor, Johannes Veith, Eric Singer, Taylor D. Hartman, Paolo Rissone, Jaehyeok Jin, Jack Wei Lun Shi, Chris G. Willcocks, Joshua Robinson, Aleksandar Mikov, Ameya Prabhu, Longke Tang, Xavier Alapont, Justine Leon Uro, Kevin Zhou, Emily de Oliveira Santos, Andrey Pupasov Maksimov, Edward Vendrow, Kengo Zenitani, Julien Guillod, Yuqi Li, Joshua Vendrow, Vladyslav Kuchkin, Ng Ze-An, Pierre Marion, Denis Efremov, Jayson Lynch, Kaiqu Liang, Andrew Gritsevskiy, Dakotah Martinez, Ben Pageler, Nick Crispino, Dimitri Zvonkine, Natanael Wildner Fraga, Saeed Soori, Ori Press, Henry Tang, Julian Salazar, Sean R. Green, Lina Brüssel, Moon Twayana, Aymeric Dieuleveut, T. Ryan Rogers, Wenjin Zhang, Bikun Li, Jinzhou Yang, Arun Rao, Gabriel Loiseau, Mikhail Kalinin, Marco Lukas, Ciprian Manolescu, Subrata Mishra, Ariel Ghislain Kemogne Kamdoum, Tobias Kreiman, Tad Hogg, Alvin Jin, Carlo Bosio, Gongbo Sun, Brian P Coppola, Tim Tarver, Haline Heidinger, Rafael Sayous, Stefan Ivanov, Joseph M Cavanagh, Jiawei Shen, Joseph Marvin Imperial, Philippe Schwaller, Shaipranesh Senthilkuma, Andres M Bran, Ali Dehghan, Andres Algaba, Brecht Verbeken, David Noever, Ragavendran P V, Lisa Schut, Ilia Sucholutsky, Evgenii Zheltonozhskii, Derek Lim, Richard Stanley, Shankar Sivarajan, Tong Yang, John Maar, Julian Wykowski, Martí Oller, Jennifer Sandlin, Anmol Sahu, Yuzheng Hu, Sara Fish, Nasser Heydari, Archimedes Apronti, Kaivalya Rawal, Tobias Garcia Vilchis, Yuexuan Zu, Martin Lackner, James Koppel, Jeremy Nguyen, Daniil S. Antonenko, Steffi Chern, Bingchen Zhao, Pierrot Arsene, Alan Goldfarb, Sergey Ivanov, Rafał Poświata, Chenguang Wang, Daofeng Li, Donato Crisostomi, Andrea Achilleos, Benjamin Myklebust, Archan Sen, David Perrella, Nurdin Kaparov, Mark H Inlow, Allen Zang, Elliott Thornley, Daniil Orel, Vladislav Poritski, Shalev Ben-David, Zachary Berger, Parker Whitfill, Michael Foster, Daniel Munro, Linh Ho, Dan Bar Hava, Aleksey Kuchkin, Robert Lauff, David Holmes, Frank Sommerhage, Keith Schneider, Zakayo Kazibwe, Nate Stambaugh, Mukhwinder Singh, Ilias Magoulas, Don Clarke, Dae Hyun Kim, Felipe Meneguitti Dias, Veit Elser, Kanu Priya Agarwal, Victor Efren Guadarrama Vilchis, Immo Klose, Christoph Demian, Ujjwala Anantheswaran, Adam Zweiger, Guglielmo Albani, Jeffery Li, Nicolas Daans, Maksim Radionov, Václav Rozhoň, Ziqiao Ma, Christian Stump, Mohammed Berkani, Jacob Platnick, Volodymyr Nevirkovets, Luke Basler, Marco Piccardo, Ferenc Jeanplong, Niv Cohen, Josef Tkadlec, Paul Rosu, Piotr Padlewski, Stanislaw Barzowski, Kyle Montgomery, Aline Menezes, Arkil Patel, Zixuan Wang, Jamie Tucker-Foltz, Jack Stade, Tom Goertzen, Fereshteh Kazemi, Jeremiah Milbauer, John Arnold Ambay, Abhishek Shukla, Yan Carlos Leyva Labrador, Alan Givré, Hew Wolff, Vivien Rossbach, Muhammad Fayez Aziz, Younesse Kaddar, Yanxu Chen, Robin Zhang, Jiayi Pan, Antonio Terpin, Niklas Muennighoff, Hailey Schoelkopf, Eric Zheng, Avishy Carmi, Adam Jones, Jainam Shah, Ethan D. L. Brown, Kelin Zhu, Max Bartolo, Richard Wheeler, Andrew Ho, Shaul Barkan, Jiaqi Wang, Martin Stehberger, Egor Kretov, Kaustubh Sridhar, Zienab EL-Wasif, Anji Zhang, Daniel Pyda, Joanna Tam, David M. Cunningham, Vladimir Goryachev, Demosthenes Patramanis, Michael Krause, Andrew Redenti, Daniel Bugas, David Aldous, Jesyin Lai, Shannon Coleman, Mohsen Bahaloo, Jiangnan Xu, Sangwon Lee, Sandy Zhao, Ning Tang, Michael K. Cohen, Micah Carroll, Orr Paradise, Jan Hendrik Kirchner, Stefan Steinerberger, Maksym Ovchynnikov, Jason O. Matos, Adithya Shenoy, Benedito Alves de Oliveira Junior, Michael Wang, Yuzhou Nie, Paolo Giordano, Philipp Petersen, Anna Sztyber-Betley, Priti Shukla, Jonathan Crozier, Antonella Pinto, Shreyas Verma, Prashant Joshi, Zheng-Xin Yong, Allison Tee, Jérémy Andréoletti, Orion Weller, Raghav Singhal, Gang Zhang, Alexander Ivanov, Seri Khoury, Hamid Mostaghimi, Kunvar Thaman, Qijia Chen, Tran Quoc Khánh, Jacob Loader, Stefano Cavalleri, Hannah Szlyk, Zachary Brown, Jonathan Roberts, William Alley, Kunyang Sun, Ryan Stendall, Max Lamparth, Anka Reuel, Ting Wang, Hanmeng Xu, Sreenivas Goud Raparthi, Pablo Hernández-Cámara, Freddie Martin, Dmitry Malishev, Thomas Preu, Tomek Korbak, Marcus Abramovitch, Dominic Williamson, Ziye Chen, Biró Bálint, M Saiful Bari, Peyman Kassani, Zihao Wang, Behzad Ansarinejad, Laxman Prasad Goswami, Yewen Sun, Hossam Elgnainy, Daniel Tordera, George Balabanian, Earth Anderson, Lynna Kvistad, Alejandro José Moyano, Rajat Maheshwari, Ahmad Sakor, Murat Eron, Isaac C. McAlister, Javier Gimenez, Innocent Enyekwe, Andrew Favre D. O., Shailesh Shah, Xiaoxiang Zhou, Firuz Kamalov, Ronald Clark, Sherwin Abdoli, Tim Santens, Khalida Meer, Harrison K Wang, Kalyan Ramakrishnan, Evan Chen, Alessandro Tomasiello, G. Bruno De Luca, Shi-Zhuo Looi, Vinh-Kha Le, Noam Kolt, Niels Mündler, Avi Semler, Emma Rodman, Jacob Drori, Carl J Fossum, Milind Jagota, Ronak Pradeep, Honglu Fan, Tej Shah, Jonathan Eicher, Michael Chen, Kushal Thaman, William Merrill, Carter Harris, Jason Gross, Ilya Gusev, Asankhaya Sharma, Shashank Agnihotri, Pavel Zhelnov, Siranut Usawasutsakorn, Mohammadreza Mofayezi, Sergei Bogdanov, Alexander Piperski, Marc Carauleanu, David K. Zhang, Dylan Ler, Roman Leventov, Ignat Soroko, Thorben Jansen, Pascal Lauer, Joshua Duersch, Vage Taamazyan, Wiktor Morak, Wenjie Ma, William Held, Tran Đuc Huy, Ruicheng Xian, Armel Randy Zebaze, Mohanad Mohamed, Julian Noah Leser, Michelle X Yuan, Laila Yacar, Johannes Lengler, Hossein Shahrtash, Edson Oliveira, Joseph W. Jackson, Daniel Espinosa Gonzalez, Andy Zou, Muthu Chidambaram, Timothy Manik, Hector Haffenden, Dashiell Stander, Ali Dasouqi, Alexander Shen, Emilien Duc, Bita Golshani, David Stap, Mikalai Uzhou, Alina Borisovna Zhidkovskaya, Lukas Lewark, Mátyás Vincze, Dustin Wehr, Colin Tang, Zaki Hossain, Shaun Phillips, Jiang Muzhen, Fredrik Ekström, Angela Hammon, Oam Patel, Nicolas Remy, Faraz Farhidi, George Medley, Forough Mohammadzadeh, Madellene Peñaflor, Haile Kassahun, Alena Friedrich, Claire Sparrow, Taom Sakal, Omkar Dhamane, Ali Khajegili Mirabadi, Eric Hallman, Mike Battaglia, Mohammad Maghsoudimehrabani, Hieu Hoang, Alon Amit, Dave Hulbert, Roberto Pereira, Simon Weber, Stephen Mensah, Nathan Andre, Anton Peristyy, Chris Harjadi, Himanshu Gupta, Stephen Malina, Samuel Albanie, Will Cai, Mustafa Mehkary, Frank Reidegeld, Anna-Katharina Dick, Cary Friday, Jasdeep Sidhu, Wanyoung Kim, Mariana Costa, Hubeyb Gurdogan, Brian Weber, Harsh Kumar, Tong Jiang, Arunim Agarwal, Chiara Ceconello, Warren S. Vaz, Chao Zhuang, Haon Park, Andrew R. Tawfeek, Daattavya Aggarwal, Michael Kirchhof, Linjie Dai, Evan Kim, Johan Ferret, Yuzhou Wang, Minghao Yan, Krzysztof Burdzy, Lixin Zhang, Antonio Franca, Diana T. Pham, Kang Yong Loh, Joshua Robinson, Shreen Gul, Gunjan Chhablani, Zhehang Du, Adrian Cosma, Colin White, Robin Riblet, Prajvi Saxena, Jacob Votava, Vladimir Vinnikov, Ethan Delaney, Shiv Halasyamani, Syed M. Shahid, Jean-Christophe Mourrat, Lavr Vetoshkin, Renas Bacho, Vincent Ginis, Aleksandr Maksapetyan, Florencia de la Rosa, Xiuyu Li, Guillaume Malod, Leon Lang, Julien Laurendeau, Fatimah Adesanya, Julien Portier, Lawrence Hollom, Victor Souza, Yuchen Anna Zhou, Yiğit Yalın, Gbenga Daniel Obikoya, Luca Arnaboldi, Rai, Filippo Bigi, Kaniuar Bacho, Pierre Clavier, Gabriel Recchia, Mara Popescu, Nikita Shulga, Ngefor Mildred Tanwie, Thomas C. H. Lux, Ben Rank, Colin Ni, Alesia Yakimchyk, Huanxu, Liu, Olle Häggström, Emil Verkama, Himanshu Narayan, Hans Gundlach, Leonor Brito-Santana, Brian Amaro, Vivek Vajipey, Rynaa Grover, Yiyang Fan, Gabriel Poesia Reis e Silva, Linwei Xin, Yosi Kratish, Jakub Łucki, Wen-Ding Li, Justin Xu, Kevin Joseph Scaria, Freddie Vargus, Farzad Habibi, Long, Lian, Emanuele Rodolà, Jules Robins, Vincent Cheng, Declan Grabb, Ida Bosio, Tony Fruhauff, Ido Akov, Eve J. Y. Lo, Hao Qi, Xi Jiang, Ben Segev, Jingxuan Fan, Sarah Martinson, Erik Y. Wang, Kaylie Hausknecht, Michael P. Brenner, Mao Mao, Yibo Jiang, Xinyu Zhang, David Avagian, Eshawn Jessica Scipio, Muhammad Rehan Siddiqi, Alon Ragoler, Justin Tan, Deepakkumar Patil, Rebeka Plecnik, Aaron Kirtland, Roselynn Grace Montecillo, Stephane Durand, Omer Faruk Bodur, Zahra Adoul, Mohamed Zekry, Guillaume Douville, Ali Karakoc, Tania C. B. Santos, Samir Shamseldeen, Loukmane Karim, Anna Liakhovitskaia, Nate Resman, Nicholas Farina, Juan Carlos Gonzalez, Gabe Maayan, Sarah Hoback, Rodrigo De Oliveira Pena, Glen Sherman, Hodjat Mariji, Rasoul Pouriamanesh, Wentao Wu, Gözdenur Demir, Sandra Mendoza, Ismail Alarab, Joshua Cole, Danyelle Ferreira, Bryan Johnson, Hsiaoyun Milliron, Mohammad Safdari, Liangti Dai, Siriphan Arthornthurasuk, Alexey Pronin, Jing Fan, Angel Ramirez-Trinidad, Ashley Cartwright, Daphiny Pottmaier, Omid Taheri, David Outevsky, Stanley Stepanic, Samuel Perry, Luke Askew, Raúl Adrián Huerta Rodríguez, Abdelkader Dendane, Sam Ali, Ricardo Lorena, Krishnamurthy Iyer, Sk Md Salauddin, Murat Islam, Juan Gonzalez, Josh Ducey, Russell Campbell, Maja Somrak, Vasilios Mavroudis, Eric Vergo, Juehang Qin, Benjámin Borbás, Eric Chu, Jack Lindsey, Anil Radhakrishnan, Antoine Jallon, I. M. J. McInnis, Alex Hoover, Sören Möller, Song Bian, John Lai, Tejal Patwardhan, Summer Yue, Alexandr Wang, Dan Hendrycks

Os benchmarks são ferramentas importantes para acompanhar os avanços rápidos nas capacidades de modelos de linguagem grandes (LLM). No entanto, os benchmarks não estão acompanhando o ritmo em termos de dificuldade: os LLMs agora alcançam mais de 90\% de precisão em benchmarks populares como MMLU, limitando a medição informada das capacidades de ponta dos LLMs. Em resposta, introduzimos o Último Exame da Humanidade (HLE), um benchmark multimodal na fronteira do conhecimento humano, projetado para ser o último benchmark acadêmico fechado de seu tipo com ampla cobertura de assuntos. O HLE consiste em 3.000 perguntas em dezenas de disciplinas, incluindo matemática, humanidades e ciências naturais. O HLE é desenvolvido globalmente por especialistas em determinadas áreas e consiste em perguntas de múltipla escolha e de resposta curta adequadas para correção automatizada. Cada pergunta possui uma solução conhecida que é inequívoca e facilmente verificável, mas que não pode ser respondida rapidamente por meio de recuperação na internet. Os LLMs de ponta demonstram baixa precisão e calibração no HLE, destacando uma lacuna significativa entre as capacidades atuais dos LLMs e a fronteira humana especializada em perguntas acadêmicas fechadas. Para informar a pesquisa e a formulação de políticas com base em uma compreensão clara das capacidades do modelo, disponibilizamos publicamente o HLE em https://lastexam.ai.

Geração Aumentada por Cadeia de Recuperação
Chain-of-Retrieval Augmented Generation

Jan 24

ByLiang Wang, Haonan Chen, Nan Yang, Xiaolong Huang, Zhicheng Dou, Furu Wei

Este artigo apresenta uma abordagem para treinar modelos RAG semelhantes a o1 que recuperam e raciocinam sobre informações relevantes passo a passo antes de gerar a resposta final. Os métodos RAG convencionais geralmente realizam uma única etapa de recuperação antes do processo de geração, o que limita sua eficácia ao lidar com consultas complexas devido a resultados de recuperação imperfeitos. Em contraste, nosso método proposto, CoRAG (Geração Aumentada por Cadeia de Recuperação), permite que o modelo reformule dinamicamente a consulta com base no estado em evolução. Para treinar o CoRAG de forma eficaz, utilizamos amostragem de rejeição para gerar automaticamente cadeias de recuperação intermediárias, aumentando assim conjuntos de dados RAG existentes que fornecem apenas a resposta final correta. No momento do teste, propomos várias estratégias de decodificação para dimensionar o cálculo do modelo no momento do teste, controlando o comprimento e o número de cadeias de recuperação amostradas. Resultados experimentais em vários benchmarks validam a eficácia do CoRAG, especialmente em tarefas de resposta a perguntas de múltiplas etapas, onde observamos mais de 10 pontos de melhoria na pontuação EM em comparação com baselines fortes. No benchmark KILT, o CoRAG estabelece um novo desempenho de ponta em uma ampla gama de tarefas intensivas em conhecimento. Além disso, oferecemos análises abrangentes para entender o comportamento de dimensionamento do CoRAG, lançando as bases para pesquisas futuras com o objetivo de desenvolver modelos de base factual e fundamentada.

RealCritic: Rumo à Avaliação Orientada pela Efetividade do Modelo de Linguagem - Críticas
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques

Jan 24

ByZhengyang Tang, Ziniu Li, Zhenyang Xiao, Tian Ding, Ruoyu Sun, Benyou Wang, Dayiheng Liu, Fei Huang, Tianyu Liu, Bowen Yu, Junyang Lin

As críticas são importantes para aprimorar o desempenho de Modelos de Linguagem de Grande Escala (LLMs), permitindo tanto a auto melhoria quanto o feedback construtivo para outros, identificando falhas e sugerindo melhorias. No entanto, avaliar as capacidades de crítica dos LLMs apresenta um desafio significativo devido à natureza aberta da tarefa. Neste trabalho, introduzimos um novo benchmark projetado para avaliar as capacidades de crítica dos LLMs. Ao contrário dos benchmarks existentes, que normalmente funcionam de forma aberta, nossa abordagem emprega uma metodologia de circuito fechado que avalia a qualidade das correções geradas a partir das críticas. Além disso, o benchmark incorpora características como auto-crítica, crítica cruzada e crítica iterativa, que são cruciais para distinguir as habilidades de modelos de raciocínio avançados dos mais clássicos. Implementamos este benchmark usando oito desafiadoras tarefas de raciocínio. Temos várias descobertas interessantes. Primeiramente, apesar de demonstrar desempenho comparável na geração direta de cadeias de pensamento, os LLMs clássicos ficam significativamente atrás do modelo baseado em raciocínio avançado o1-mini em todos os cenários de crítica. Em segundo lugar, em configurações de auto-crítica e crítica iterativa, os LLMs clássicos podem até ter um desempenho inferior em relação às suas capacidades básicas. Esperamos que este benchmark sirva como um recurso valioso para orientar futuros avanços. O código e os dados estão disponíveis em https://github.com/tangzhy/RealCritic.

Princípios de Redundância para Avaliações de MLLMs
Redundancy Principles for MLLMs Benchmarks

Jan 20

ByZicheng Zhang, Xiangyu Zhao, Xinyu Fang, Chunyi Li, Xiaohong Liu, Xiongkuo Min, Haodong Duan, Kai Chen, Guangtao Zhai

Com a rápida iteração de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) e as demandas em evolução do campo, o número de benchmarks produzidos anualmente disparou para centenas. O crescimento rápido inevitavelmente resultou em uma redundância significativa entre os benchmarks. Portanto, é crucial dar um passo atrás e avaliar criticamente o estado atual da redundância e propor princípios direcionados para a construção de benchmarks MLLM eficazes. Neste artigo, focamos na redundância a partir de três perspectivas-chave: 1) Redundância das dimensões de capacidade dos benchmarks, 2) Redundância no número de perguntas de teste e 3) Redundância entre benchmarks dentro de domínios específicos. Através da análise abrangente do desempenho de centenas de MLLMs em mais de 20 benchmarks, temos como objetivo mensurar quantitativamente o nível de redundância presente nas avaliações de MLLM existentes, fornecer insights valiosos para orientar o desenvolvimento futuro de benchmarks MLLM e oferecer estratégias para refinar e abordar efetivamente as questões de redundância.

RL + Transformer = Um Solucionador de Problemas de Uso Geral
RL + Transformer = A General-Purpose Problem Solver

Jan 24

ByMicah Rentschler, Jesse Roberts

E se a inteligência artificial não apenas pudesse resolver problemas para os quais foi treinada, mas também aprender a ensinar a si mesma a resolver novos problemas (ou seja, meta-aprender)? Neste estudo, demonstramos que um transformer pré-treinado, refinado com aprendizado por reforço ao longo de vários episódios, desenvolve a capacidade de resolver problemas que nunca encontrou antes - uma habilidade emergente chamada Aprendizado por Reforço em Contexto (ICRL). Este poderoso meta-aprendiz não só se destaca na resolução de ambientes não vistos na distribuição com uma eficiência de amostragem notável, mas também apresenta um desempenho sólido em ambientes fora da distribuição. Além disso, mostramos que ele exibe robustez em relação à qualidade de seus dados de treinamento, costura de forma contínua comportamentos de seu contexto e se adapta a ambientes não estacionários. Esses comportamentos demonstram que um transformer treinado com RL pode melhorar iterativamente suas próprias soluções, tornando-o um excelente solucionador de problemas de propósito geral.

Avatares de Código Gaussiano de Corpo Inteiro Relumináveis
Relightable Full-Body Gaussian Codec Avatars

Jan 24

ByShaofei Wang, Tomas Simon, Igor Santesteban, Timur Bagautdinov, Junxuan Li, Vasu Agrawal, Fabian Prada, Shoou-I Yu, Pace Nalbone, Matt Gramlich, Roman Lubachersky, Chenglei Wu, Javier Romero, Jason Saragih, Michael Zollhoefer, Andreas Geiger, Siyu Tang, Shunsuke Saito

Propomos Avatares Gaussianos de Corpo Inteiro Reluzentes, uma nova abordagem para modelar avatares de corpo inteiro reluzentes com detalhes refinados, incluindo rosto e mãos. O desafio único para reluzir avatares de corpo inteiro reside nas grandes deformações causadas pela articulação do corpo e o impacto resultante na aparência causado pelo transporte de luz. Mudanças na pose do corpo podem alterar drasticamente a orientação das superfícies corporais em relação às luzes, resultando em mudanças de aparência locais devido a alterações nas funções locais de transporte de luz, bem como mudanças não locais devido à oclusão entre partes do corpo. Para lidar com isso, decomponemos o transporte de luz em efeitos locais e não locais. Mudanças de aparência locais são modeladas usando harmônicos zonais aprendíveis para transferência de radiância difusa. Ao contrário dos harmônicos esféricos, os harmônicos zonais são altamente eficientes para girar sob articulação. Isso nos permite aprender a transferência de radiância difusa em um quadro de coordenadas local, que separa a transferência de radiância local da articulação do corpo. Para considerar mudanças de aparência não locais, introduzimos uma rede de sombras que prevê sombras dadas as irradiâncias de entrada pré-computadas em uma malha base. Isso facilita a aprendizagem de sombreamentos não locais entre as partes do corpo. Por fim, usamos uma abordagem de sombreamento diferido para modelar a transferência de radiância especular e capturar melhor reflexos e destaques, como brilhos nos olhos. Demonstramos que nossa abordagem modela com sucesso tanto o transporte de luz local quanto não local necessário para avatares de corpo inteiro reluzentes, com uma capacidade de generalização superior sob condições de iluminação inovadoras e poses não vistas.

Resposta a Perguntas em Registos Médicos de Pacientes com LLMs Privados Ajustados Finamente
Question Answering on Patient Medical Records with Private Fine-Tuned LLMs

Jan 23

BySara Kothari, Ayush Gupta

Os sistemas de saúde geram continuamente vastas quantidades de registros eletrônicos de saúde (EHRs), comumente armazenados no padrão de Recursos de Interoperabilidade Rápida em Saúde (FHIR). Apesar da riqueza de informações nesses registros, sua complexidade e volume tornam difícil para os usuários recuperar e interpretar insights de saúde cruciais. Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) oferecem uma solução, possibilitando a resposta semântica a perguntas (QA) sobre dados médicos, permitindo que os usuários interajam com seus registros de saúde de forma mais eficaz. No entanto, garantir privacidade e conformidade requer implantações locais e privadas de LLMs. Este artigo propõe uma abordagem inovadora para QA semântico sobre EHRs, identificando primeiro os recursos FHIR mais relevantes para uma consulta do usuário (Tarefa 1) e respondendo subsequentemente à consulta com base nesses recursos (Tarefa 2). Exploramos o desempenho de LLMs ajustados finamente hospedados de forma privada, avaliando-os em comparação com modelos de referência como GPT-4 e GPT-4o. Nossos resultados demonstram que os LLMs ajustados finamente, embora 250 vezes menores em tamanho, superam os modelos da família GPT-4 em 0,55% no escore F1 na Tarefa 1 e em 42% na Tarefa Meteor na Tarefa 2. Além disso, examinamos aspectos avançados do uso de LLMs, incluindo ajuste fino sequencial, autoavaliação do modelo (avaliação narcisista) e o impacto do tamanho dos dados de treinamento no desempenho. Os modelos e conjuntos de dados estão disponíveis aqui: https://huggingface.co/genloop

GeoPixel: Modelo Multimodal Grande de Ancoragem de Pixels em Sensoriamento Remoto
GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing

Jan 23

ByAkashah Shabbir, Mohammed Zumri, Mohammed Bennamoun, Fahad S. Khan, Salman Khan

Os avanços recentes em modelos multimodais grandes (LMMs) reconheceram o enraizamento refinado como um fator imperativo para a compreensão visual e diálogo. No entanto, os benefícios de tal representação em LMMs são limitados ao domínio de imagens naturais, e esses modelos têm baixo desempenho para sensoriamento remoto (RS). A vista aérea distinta, a variação de escala e a presença de objetos pequenos em imagens de alta resolução de RS apresentam um desafio único na compreensão em nível de região. Além disso, o desenvolvimento da capacidade de conversação enraizada de LMMs dentro de RS é prejudicado pela falta de dados enraizados granulares específicos do domínio de RS. Para abordar essas limitações, propomos o GeoPixel - o primeiro RS-LMM de alta resolução de ponta a ponta que suporta o enraizamento em nível de pixel. Essa capacidade permite percepção visual refinada gerando máscaras entrelaçadas na conversa. O GeoPixel suporta até resolução HD 4K em qualquer proporção, ideal para análise de imagens de RS de alta precisão. Para apoiar a geração de conversas enraizadas (GCG) em imagens de RS, criamos um conjunto de dados visualmente enraizado, o GeoPixelD, por meio de um pipeline semi-automatizado que utiliza marcações de conjunto e prioridades espaciais adaptadas para dados de RS para controlar metodicamente o processo de geração de dados. O GeoPixel demonstra desempenho superior na compreensão em nível de pixel, superando os LMMs existentes em tarefas de segmentação de alvos únicos e múltiplos. Nossos estudos de ablação metodológica validam a eficácia de cada componente na arquitetura geral. Nosso código e dados serão publicamente divulgados.

A Equivariância Multivisão Melhora a Compreensão da Correspondência 3D com um Mínimo de Ajuste Fino de Recursos.
Multiview Equivariance Improves 3D Correspondence Understanding with Minimal Feature Finetuning

Nov 29

ByYang You, Yixin Li, Congyue Deng, Yue Wang, Leonidas Guibas

Os modelos de base visual, em particular a família ViT, revolucionaram a compreensão de imagens ao fornecer recursos semânticos ricos. No entanto, apesar de seu sucesso na compreensão 2D, suas habilidades em compreender relacionamentos espaciais 3D ainda não estão claras. Neste trabalho, avaliamos e aprimoramos a consciência 3D dos modelos baseados em ViT. Começamos avaliando sistematicamente sua capacidade de aprender recursos 3D equivariantes, examinando especificamente a consistência das incorporações semânticas em diferentes pontos de vista. Nossas descobertas indicam que uma melhor equivariância 3D leva a um melhor desempenho em várias tarefas subsequentes, incluindo estimativa de pose, rastreamento e transferência semântica. Com base nessa percepção, propomos uma estratégia de ajuste simples, porém eficaz, com base em correspondências 3D, que aprimora significativamente a compreensão de correspondências 3D dos modelos de visão existentes. Notavelmente, mesmo o ajuste fino em um único objeto por apenas uma iteração resulta em ganhos de desempenho substanciais. Todo o código e recursos estarão disponíveis publicamente para apoiar futuros avanços em modelos de visão conscientes de 3D. Nosso código está disponível em https://github.com/qq456cvb/3DCorrEnhance.

CatV2TON: Domando Transformadores de Difusão para Prova Virtual Baseada em Visão com Concatenação Temporal
CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation

Jan 20

ByZheng Chong, Wenqing Zhang, Shiyue Zhang, Jun Zheng, Xiao Dong, Haoxiang Li, Yiling Wu, Dongmei Jiang, Xiaodan Liang

A tecnologia de provador virtual (VTON) tem ganhado atenção devido ao seu potencial para transformar o varejo online, permitindo a visualização realista de roupas em imagens e vídeos. No entanto, a maioria dos métodos existentes enfrenta dificuldades para obter resultados de alta qualidade em tarefas de provação de imagem e vídeo, especialmente em cenários de vídeo longos. Neste trabalho, apresentamos o CatV2TON, um método de provador virtual baseado em visão (V2TON) simples e eficaz que suporta tanto tarefas de provação de imagem quanto de vídeo com um único modelo de transformador de difusão. Ao concatenar temporalmente as entradas de vestuário e pessoa e treinar com uma mistura de conjuntos de dados de imagem e vídeo, o CatV2TON alcança um desempenho robusto de provação em configurações estáticas e dinâmicas. Para uma geração eficiente de vídeos longos, propomos uma estratégia de inferência baseada em clipes sobrepostos que utiliza orientação de quadro sequencial e Normalização Adaptativa de Clipes (AdaCN) para manter consistência temporal com demandas de recursos reduzidas. Também apresentamos o ViViD-S, um conjunto de dados refinado de provação de vídeo, obtido filtrando quadros de costas e aplicando suavização de máscara 3D para uma consistência temporal aprimorada. Experimentos abrangentes demonstram que o CatV2TON supera os métodos existentes em tarefas de provação de imagem e vídeo, oferecendo uma solução versátil e confiável para provas virtuais realistas em diversos cenários.

AdaIR: Restauração de Imagem Adaptativa Tudo-em-Um via Mineração de Frequência e Modulação
AdaIR: Adaptive All-in-One Image Restoration via Frequency Mining and Modulation

Mar 21

ByYuning Cui, Syed Waqas Zamir, Salman Khan, Alois Knoll, Mubarak Shah, Fahad Shahbaz Khan

No processo de aquisição de imagens, várias formas de degradação, incluindo ruído, neblina e chuva, são frequentemente introduzidas. Essas degradações geralmente surgem das limitações inerentes das câmeras ou de condições ambientais desfavoráveis. Para recuperar imagens limpas a partir de versões degradadas, inúmeros métodos especializados de restauração foram desenvolvidos, cada um visando um tipo específico de degradação. Recentemente, algoritmos "tudo-em-um" têm recebido atenção significativa ao abordar diferentes tipos de degradações dentro de um único modelo sem exigir informações prévias sobre o tipo de degradação de entrada. No entanto, esses métodos operam puramente no domínio espacial e não exploram as distintas variações de frequência inerentes a diferentes tipos de degradação. Para abordar essa lacuna, propomos uma rede adaptativa de restauração de imagens "tudo-em-um" baseada em mineração e modulação de frequência. Nossa abordagem é motivada pela observação de que diferentes tipos de degradação impactam o conteúdo da imagem em diferentes subfaixas de frequência, exigindo tratamentos distintos para cada tarefa de restauração. Especificamente, primeiro extraímos informações de baixa e alta frequência dos recursos de entrada, guiados pelos espectros adaptativamente desacoplados da imagem degradada. As características extraídas são então moduladas por um operador bidirecional para facilitar interações entre diferentes componentes de frequência. Por fim, as características moduladas são mescladas ao input original para uma restauração progressivamente guiada. Com essa abordagem, o modelo alcança uma reconstrução adaptativa ao enfatizar as subfaixas de frequência informativas de acordo com diferentes degradações de entrada. Experimentos extensivos demonstram que o método proposto alcança desempenho de ponta em diferentes tarefas de restauração de imagem, incluindo remoção de ruído, desembaçamento, remoção de chuva, desfocagem de movimento e melhoria de imagens com pouca luz. Nosso código está disponível em https://github.com/c-yn/AdaIR.

Remoção de Ruído como Adaptação: Adaptação de Domínio de Espaço de Ruído para Restauração de Imagens
Denoising as Adaptation: Noise-Space Domain Adaptation for Image Restoration

Jun 26

ByKang Liao, Zongsheng Yue, Zhouxia Wang, Chen Change Loy

Embora os métodos de restauração de imagem baseados em aprendizado tenham avançado significativamente, ainda enfrentam dificuldades na generalização limitada para cenários do mundo real devido à grande diferença de domínio causada pelo treinamento em dados sintéticos. Métodos existentes abordam essa questão melhorando os pipelines de síntese de dados, estimando kernels de degradação, empregando aprendizado interno profundo e realizando adaptação de domínio e regularização. Métodos anteriores de adaptação de domínio buscaram reduzir a diferença de domínio aprendendo conhecimento invariante de domínio no espaço de características ou de pixels. No entanto, essas técnicas frequentemente enfrentam dificuldades para se estender a tarefas de visão de baixo nível dentro de um framework estável e compacto. Neste artigo, demonstramos que é possível realizar adaptação de domínio por meio do espaço de ruído usando modelos de difusão. Em particular, ao aproveitar a propriedade única de como entradas condicionais auxiliares influenciam o processo de remoção de ruído em várias etapas, derivamos uma perda de difusão significativa que orienta o modelo de restauração na progressiva alinhamento de saídas restauradas sintéticas e do mundo real com uma distribuição limpa alvo. Referimo-nos a este método como adaptação por remoção de ruído. Para evitar atalhos durante o treinamento conjunto, apresentamos estratégias cruciais, como camada de reorganização de canais e aprendizado contrastivo de troca residual no modelo de difusão. Elas borram implicitamente as fronteiras entre dados sintéticos condicionados e reais e impedem a dependência do modelo em características facilmente distinguíveis. Resultados experimentais em três tarefas clássicas de restauração de imagem, a saber, remoção de ruído, desfocagem e remoção de chuva, demonstram a eficácia do método proposto.