Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

HuatuoGPT-o1, Rumo ao Raciocínio Complexo em Medicina com LLMs
HuatuoGPT-o1, Towards Medical Complex Reasoning with LLMs

Dec 25

ByJunying Chen, Zhenyang Cai, Ke Ji, Xidong Wang, Wanlong Liu, Rongsheng Wang, Jianye Hou, Benyou Wang

104

A descoberta do OpenAI o1 destaca o potencial de aprimorar o raciocínio para melhorar o LLM. No entanto, a maioria das pesquisas em raciocínio tem se concentrado em tarefas matemáticas, deixando domínios como a medicina pouco explorados. O domínio médico, embora distinto da matemática, também exige um raciocínio robusto para fornecer respostas confiáveis, dadas as altas normas da assistência médica. No entanto, verificar o raciocínio médico é desafiador, ao contrário do que ocorre com a matemática. Para lidar com isso, propomos problemas médicos verificáveis com um verificador médico para verificar a correção das saídas do modelo. Essa natureza verificável possibilita avanços no raciocínio médico por meio de uma abordagem em duas etapas: (1) usar o verificador para orientar a busca por uma trajetória de raciocínio complexa para ajustar finamente os LLMs, (2) aplicar aprendizado por reforço (RL) com recompensas baseadas no verificador para aprimorar ainda mais o raciocínio complexo. Por fim, apresentamos o HuatuoGPT-o1, um LLM médico capaz de raciocínio complexo, que supera baselines gerais e específicos da área médica usando apenas 40 mil problemas verificáveis. Experimentos mostram que o raciocínio complexo melhora a resolução de problemas médicos e se beneficia mais do RL. Esperamos que nossa abordagem inspire avanços no raciocínio em domínios médicos e especializados.

FLUX de 1,58 bits.
1.58-bit FLUX

Dec 24

ByChenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen

Apresentamos o FLUX de 1,58 bits, a primeira abordagem bem-sucedida para quantizar o modelo de geração de texto para imagem de última geração, FLUX.1-dev, usando pesos de 1,58 bits (ou seja, valores em {-1, 0, +1}) mantendo desempenho comparável na geração de imagens de 1024 x 1024. Notavelmente, nosso método de quantização opera sem acesso aos dados de imagem, dependendo exclusivamente da auto-supervisão do modelo FLUX.1-dev. Além disso, desenvolvemos um kernel personalizado otimizado para operações de 1,58 bits, alcançando uma redução de 7,7 vezes no armazenamento do modelo, uma redução de 5,1 vezes na memória de inferência e uma latência de inferência aprimorada. Avaliações extensas nos benchmarks GenEval e T2I Compbench demonstram a eficácia do FLUX de 1,58 bits em manter a qualidade de geração enquanto aprimora significativamente a eficiência computacional.

Previsão do Próximo Token Rumo à Inteligência Multimodal: Uma Pesquisa Abrangente
Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

Dec 16

ByLiang Chen, Zekun Wang, Shuhuai Ren, Lei Li, Haozhe Zhao, Yunshui Li, Zefan Cai, Hongcheng Guo, Lei Zhang, Yizhe Xiong, Yichi Zhang, Ruoyu Wu, Qingxiu Dong, Ge Zhang, Jian Yang, Lingwei Meng, Shujie Hu, Yulong Chen, Junyang Lin, Shuai Bai, Andreas Vlachos, Xu Tan, Minjia Zhang, Wen Xiao, Aaron Yee, Tianyu Liu, Baobao Chang

Baseando-se nos fundamentos da modelagem de linguagem no processamento de linguagem natural, a Previsão do Próximo Token (PPT) evoluiu para um objetivo de treinamento versátil para tarefas de aprendizado de máquina em várias modalidades, alcançando sucesso considerável. À medida que os Modelos de Linguagem Grandes (MLGs) avançaram para unificar tarefas de compreensão e geração dentro da modalidade textual, pesquisas recentes mostraram que tarefas de diferentes modalidades também podem ser efetivamente encapsuladas no framework de PPT, transformando informações multimodais em tokens e prevendo o próximo dado o contexto. Esta pesquisa apresenta uma taxonomia abrangente que unifica tanto a compreensão quanto a geração no aprendizado multimodal sob a perspectiva de PPT. A taxonomia proposta abrange cinco aspectos-chave: Tokenização multimodal, arquiteturas de modelos MMNTP, representação unificada de tarefas, conjuntos de dados e avaliação, e desafios abertos. Esta nova taxonomia tem como objetivo auxiliar os pesquisadores em sua exploração da inteligência multimodal. Um repositório GitHub associado, que coleta os últimos artigos e repositórios, está disponível em https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

Orientar Qualquer Coisa: Aprendizado de Estimação Robusta de Orientação de Objetos a partir da Renderização de Modelos 3D
Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models

Dec 24

ByZehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

A orientação é um atributo fundamental dos objetos, crucial para compreender sua posição espacial e disposição em imagens. No entanto, soluções práticas para a estimativa precisa de orientação a partir de uma única imagem ainda são pouco exploradas. Neste trabalho, apresentamos Orient Anything, o primeiro modelo especializado e fundamental projetado para estimar a orientação de objetos em uma imagem única e de visualização livre. Devido à escassez de dados rotulados, propomos extrair conhecimento do mundo 3D. Ao desenvolver um pipeline para anotar a face frontal de objetos 3D e renderizar imagens a partir de visualizações aleatórias, coletamos 2 milhões de imagens com anotações de orientação precisas. Para aproveitar totalmente o conjunto de dados, projetamos um objetivo de treinamento robusto que modela a orientação 3D como distribuições de probabilidade de três ângulos e prevê a orientação do objeto ajustando essas distribuições. Além disso, empregamos várias estratégias para melhorar a transferência de sintético para real. Nosso modelo alcança uma precisão de estimativa de orientação de última geração em imagens renderizadas e reais e demonstra uma impressionante capacidade de zero-shot em vários cenários. Mais importante ainda, nosso modelo aprimora muitas aplicações, como compreensão e geração de conceitos espaciais complexos e ajuste de pose de objetos 3D.

Otimização de Preferência de Tarefas: Melhorando Modelos de Linguagem Multimodais de Grande Escala com Alinhamento de Tarefas de Visão
Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment

Dec 26

ByZiang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

Os atuais modelos de linguagem multimodais de grande escala (MLLMs) enfrentam dificuldades com a compreensão detalhada ou precisa de elementos visuais, embora ofereçam percepção abrangente e raciocínio em um espectro de aplicações de visão. Estudos recentes têm desenvolvido ferramentas ou unificado tarefas visuais específicas em um framework autoregressivo, frequentemente em detrimento do desempenho multimodal geral. Para lidar com essa questão e aprimorar os MLLMs com tarefas visuais de forma escalável, propomos a Otimização de Preferência de Tarefas (TPO), um método inovador que utiliza preferências de tarefas diferenciáveis derivadas de típicas tarefas visuais detalhadas. O TPO introduz tokens de tarefas aprendíveis que estabelecem conexões entre múltiplas cabeças específicas de tarefas e o MLLM. Ao aproveitar rótulos visuais ricos durante o treinamento, o TPO aprimora significativamente as capacidades multimodais do MLLM e o desempenho específico da tarefa. Através do treinamento conjunto de várias tarefas dentro do TPO, observamos benefícios sinérgicos que elevam o desempenho individual da tarefa além do que é alcançável por metodologias de treinamento de tarefa única. Nossa implementação dessa abordagem com VideoChat e LLaVA demonstra uma melhoria geral de 14,6% no desempenho multimodal em comparação com modelos de referência. Além disso, o MLLM-TPO demonstra robustas capacidades de zero-shot em várias tarefas, apresentando desempenho comparável a modelos supervisionados de última geração. O código será disponibilizado em https://github.com/OpenGVLab/TPO.

De Elementos ao Design: Uma Abordagem em Camadas para Design Gráfico Automático Composição
From Elements to Design: A Layered Approach for Automatic Graphic Design Composition

Dec 27

ByJiawei Lin, Shizhao Sun, Danqing Huang, Ting Liu, Ji Li, Jiang Bian

Neste trabalho, investigamos a composição automática de design a partir de elementos gráficos multimodais. Embora estudos recentes tenham desenvolvido vários modelos generativos para design gráfico, geralmente enfrentam as seguintes limitações: eles se concentram apenas em determinadas subtarefas e estão longe de alcançar a tarefa de composição de design; não consideram as informações hierárquicas dos designs gráficos durante o processo de geração. Para lidar com essas questões, introduzimos o princípio do design em camadas nos Modelos Multimodais Grandes (LMMs) e propomos uma abordagem inovadora, chamada LaDeCo, para realizar essa tarefa desafiadora. Especificamente, LaDeCo primeiro realiza o planejamento em camadas para um conjunto de elementos dado, dividindo os elementos de entrada em diferentes camadas semânticas de acordo com seus conteúdos. Com base nos resultados do planejamento, prevê subsequentemente atributos de elementos que controlam a composição do design de maneira em camadas e inclui a imagem renderizada das camadas geradas anteriormente no contexto. Com esse design perspicaz, LaDeCo decompõe a tarefa difícil em etapas menores e gerenciáveis, tornando o processo de geração mais suave e claro. Os resultados experimentais demonstram a eficácia do LaDeCo na composição de design. Além disso, mostramos que o LaDeCo possibilita algumas aplicações interessantes no design gráfico, como ajuste de resolução, preenchimento de elementos, variação de design, etc. Além disso, ele supera até mesmo os modelos especializados em algumas subtarefas de design sem nenhum treinamento específico da tarefa.

A Superposição de Modelos de Difusão Usando o Estimador de Densidade de Itô
The Superposition of Diffusion Models Using the Itô Density Estimator

Dec 23

ByMarta Skreta, Lazar Atanackovic, Avishek Joey Bose, Alexander Tong, Kirill Neklyudov

A explosão cambriana de modelos de difusão pré-treinados facilmente acessíveis sugere uma demanda por métodos que combinem vários modelos de difusão pré-treinados diferentes sem incorrer no significativo ônus computacional de re-treinar um modelo combinado maior. Neste artigo, formulamos o problema de combinar múltiplos modelos de difusão pré-treinados na etapa de geração sob um novo framework proposto denominado superposição. Teoricamente, derivamos a superposição a partir de princípios rigorosos derivados da célebre equação de continuidade e projetamos dois novos algoritmos feitos sob medida para combinar modelos de difusão no SuperDiff. O SuperDiff aproveita um novo estimador de densidade de Itô escalável para a log-verossimilhança da EDS de difusão, o que não gera nenhum custo adicional em comparação com o estimador bem conhecido de Hutchinson necessário para cálculos de divergência. Demonstramos que o SuperDiff é escalável para grandes modelos de difusão pré-treinados, pois a superposição é realizada exclusivamente por meio de composição durante a inferência, e também desfruta de uma implementação sem complicações, pois combina diferentes campos vetoriais pré-treinados por meio de um esquema automatizado de reponderação. Notavelmente, mostramos que o SuperDiff é eficiente durante o tempo de inferência e imita operadores de composição tradicionais, como o OR lógico e o AND lógico. Demonstramos empiricamente a utilidade do uso do SuperDiff para gerar imagens mais diversas no CIFAR-10, edição de imagem condicionada por prompt mais fiel usando Diffusion Estável e melhoria no design de estruturas de proteínas incondicionalmente de novo. https://github.com/necludov/super-diffusion

Gerador de Vídeo: Geração de Vídeo Personalizado sem Treinamento com o Poder Inerente dos Modelos de Difusão de Vídeo
VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models

Dec 27

ByTao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li

A geração de vídeo personalizado sem necessidade de treinamento prévio tem recebido significativa atenção devido ao seu substancial potencial de aplicação. Os métodos existentes dependem de modelos adicionais para extrair e injetar características de sujeitos de referência, assumindo que o Modelo de Difusão de Vídeo (VDM) sozinho é insuficiente para a geração de vídeo personalizado sem necessidade de treinamento prévio. No entanto, esses métodos frequentemente enfrentam dificuldades em manter a aparência consistente do sujeito devido a técnicas subótimas de extração e injeção de características. Neste artigo, revelamos que o VDM possui inerentemente a capacidade de extrair e injetar características do sujeito. Partindo de abordagens heurísticas anteriores, introduzimos um novo framework que aproveita a capacidade inerente do VDM para possibilitar a geração de vídeo personalizado sem necessidade de treinamento prévio de alta qualidade. Especificamente, para a extração de características, inserimos diretamente imagens de referência no VDM e utilizamos seu processo intrínseco de extração de características, que não apenas fornece características detalhadas, mas também se alinha significativamente com o conhecimento prévio do VDM. Para a injeção de características, desenvolvemos uma interação bidirecional inovadora entre características do sujeito e conteúdo gerado por meio de autoatenção espacial dentro do VDM, garantindo que o VDM tenha uma melhor fidelidade ao sujeito mantendo a diversidade do vídeo gerado. Experimentos tanto na geração de vídeo personalizado de humanos quanto de objetos validam a eficácia de nosso framework.

Proteger LLMs Ajustados Fino por meio da Fusão de Modelos Pré e Pós-Ajuste.
Safeguard Fine-Tuned LLMs Through Pre- and Post-Tuning Model Merging

Dec 27

ByHua Farn, Hsuan Su, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee

A afinação de grandes modelos de linguagem (LLMs) para tarefas secundárias é uma abordagem amplamente adotada, mas frequentemente resulta em degradação de segurança em LLMs alinhados com a segurança. Atualmente, muitas soluções abordam esse problema incorporando dados de segurança adicionais, o que pode ser impraticável em muitos casos. Neste artigo, abordamos a questão: Como podemos melhorar o desempenho da tarefa secundária enquanto preservamos a segurança nos LLMs sem depender de dados de segurança adicionais? Propomos um método simples e eficaz que mantém a segurança inerente dos LLMs enquanto aprimora o desempenho de suas tarefas secundárias: fundir os pesos dos modelos alinhados com a segurança pré e pós-afinação. Resultados experimentais em várias tarefas secundárias, modelos e métodos de fusão demonstram que essa abordagem mitiga efetivamente a degradação de segurança enquanto melhora o desempenho da tarefa secundária, oferecendo uma solução prática para adaptar LLMs alinhados com a segurança.

CypherBench: Rumo à Recuperação Precisa em Grafos de Conhecimento Modernos em Escala Total na Era do LLM
CypherBench: Towards Precise Retrieval over Full-scale Modern Knowledge Graphs in the LLM Era

Dec 24

ByYanlin Feng, Simone Papicchio, Sajjadur Rahman

A recuperação de dados de grafos é crucial para aumentar os grandes modelos de linguagem (LLM) com conhecimento de domínio aberto e dados empresariais privados, sendo também um componente-chave no recente sistema GraphRAG (edge et al., 2024). Apesar de décadas de pesquisa em grafos de conhecimento e resposta a perguntas de base de conhecimento, os principais frameworks de LLM (por exemplo, Langchain e LlamaIndex) possuem apenas suporte mínimo para recuperação de grafos de conhecimento enciclopédico modernos como o Wikidata. Neste artigo, analisamos a causa raiz e sugerimos que grafos de conhecimento RDF modernos (por exemplo, Wikidata, Freebase) são menos eficientes para LLMs devido a esquemas excessivamente grandes que excedem em muito a janela de contexto típica de LLM, uso de identificadores de recursos, tipos de relação sobrepostos e falta de normalização. Como solução, propomos visualizações de grafos de propriedades sobre o grafo RDF subjacente que podem ser consultadas de forma eficiente por LLMs usando Cypher. Implementamos essa ideia no Wikidata e introduzimos o CypherBench, o primeiro benchmark com 11 grafos de propriedades em larga escala e multi-domínio, com 7,8 milhões de entidades e mais de 10.000 perguntas. Para alcançar isso, enfrentamos vários desafios-chave, incluindo o desenvolvimento de um mecanismo de conversão de RDF para grafo de propriedades, a criação de um pipeline sistemático para geração de tarefas de texto para Cypher e o design de novas métricas de avaliação.

Figuras SBS: QA de Figuras Pré-treinadas a partir de Imagens Sintetizadas de Estágio a Estágio
SBS Figures: Pre-training Figure QA from Stage-by-Stage Synthesized Images

Dec 23

ByRisa Shinoda, Kuniaki Saito, Shohei Tanaka, Tosho Hirasawa, Yoshitaka Ushiku

Construir um conjunto de dados de perguntas e respostas em figuras em grande escala requer uma quantidade considerável de trabalho, desde a coleta e seleção de figuras até a extração de atributos como texto, números e cores, e a geração de perguntas e respostas. Embora os avanços recentes em LLMs tenham levado a esforços para sintetizar figuras, a maioria desses esforços se concentra principalmente na geração de perguntas e respostas. Além disso, a criação de figuras diretamente usando LLMs frequentemente encontra problemas como erros de código, figuras semelhantes e conteúdo repetitivo nas figuras. Para abordar essa questão, apresentamos SBSFigures (Figuras Sintéticas de Estágio a Estágio), um conjunto de dados para pré-treinamento de perguntas e respostas em figuras. Nosso pipeline proposto permite a criação de figuras de gráficos com anotações completas dos dados visualizados e anotações densas de perguntas e respostas sem nenhum processo de anotação manual. Nosso pipeline de estágio a estágio torna possível criar eficientemente figuras de diferentes temas e aparências, minimizando erros de código. Nossas SBSFigures demonstram um forte efeito de pré-treinamento, possibilitando um treinamento eficiente com uma quantidade limitada de dados reais de gráficos, a partir de nossos pesos pré-treinados.