ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Instruções Explicativas: Rumo à Compreensão Unificada de Tarefas de Visão e Generalização sem Supervisão
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
75
2

A Visão Computacional (CV) ainda não conseguiu alcançar completamente a generalização de tarefas sem treinamento observada no Processamento de Linguagem Natural (NLP), apesar de seguir muitos dos marcos estabelecidos no NLP, como grandes modelos de transformadores, extenso pré-treinamento e o paradigma de auto-regressão, entre outros. Neste artigo, exploramos a ideia de que a CV adota definições de tarefas discretas e terminológicas (por exemplo, "segmentação de imagem"), o que pode ser uma barreira-chave para a generalização de tarefas sem treinamento. Nossa hipótese é que, sem compreender verdadeiramente as tarefas previamente vistas - devido a essas definições terminológicas - os modelos profundos têm dificuldade em generalizar para tarefas novas. Para verificar isso, introduzimos Instruções Explicativas, que fornecem uma maneira intuitiva de definir os objetivos da tarefa de CV por meio de transformações linguísticas detalhadas, das imagens de entrada para as saídas. Criamos um conjunto de dados em grande escala composto por 12 milhões de triplas "entrada de imagem para instrução explicativa para saída", e treinamos um modelo de visão-linguagem baseado em auto-regressão (AR-based VLM) que recebe tanto imagens quanto instruções explicativas como entrada. Ao aprender a seguir essas instruções, o AR-based VLM alcança capacidades de zero-shot a nível de instrução para tarefas previamente vistas e demonstra uma forte generalização de zero-shot para tarefas de CV não vistas. O código e o conjunto de dados estarão disponíveis abertamente em nosso repositório no GitHub.

2

Sobre a Generalização Composicional de Modelos de Linguagem Multimodais para Imagens Médicas
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
45
4

Os modelos de linguagem multimodais de grande escala (MLLMs) possuem um potencial significativo no campo médico, mas suas capacidades são frequentemente limitadas pela falta de dados em certos domínios médicos, destacando a necessidade de compreender que tipos de imagens podem ser utilizados pelos MLLMs para generalização. Pesquisas atuais sugerem que o treinamento multi-tarefa supera o treinamento de tarefa única, uma vez que diferentes tarefas podem se beneficiar mutuamente, porém muitas vezes negligenciam as relações internas dentro dessas tarefas, fornecendo orientações limitadas na seleção de conjuntos de dados para aprimorar tarefas específicas. Para analisar esse fenômeno, tentamos empregar a generalização composicional (CG) - a capacidade dos modelos de entender combinações novas recombinando elementos aprendidos - como um framework orientador. Uma vez que imagens médicas podem ser precisamente definidas por Modalidade, Área Anatômica e Tarefa, proporcionando naturalmente um ambiente para explorar a CG. Portanto, reunimos 106 conjuntos de dados médicos para criar o Med-MAT para experimentos abrangentes. Os experimentos confirmaram que os MLLMs podem utilizar a CG para compreender imagens médicas não vistas e identificaram a CG como um dos principais impulsionadores da generalização observada no treinamento multi-tarefa. Adicionalmente, estudos adicionais demonstraram que a CG apoia efetivamente conjuntos de dados com dados limitados e oferece desempenho consistente em diferentes arquiteturas, destacando sua versatilidade e ampla aplicabilidade. O Med-MAT está disponível publicamente em https://github.com/FreedomIntelligence/Med-MAT.

3

Servindo eficientemente Programas de Raciocínio LLM com Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
37
2

A rápida evolução dos grandes modelos de linguagem (LLMs) desbloqueou suas capacidades em tarefas avançadas de raciocínio, como resolução de problemas matemáticos, geração de código e análise jurídica. Central a esse progresso estão os algoritmos de raciocínio em tempo de inferência, que refinam as saídas explorando múltiplos caminhos de solução, ao custo de aumentar as demandas computacionais e as latências de resposta. Os sistemas de atendimento existentes falham em se adaptar aos comportamentos de escalonamento desses algoritmos ou à variação da dificuldade das consultas, levando a um uso ineficiente de recursos e a não atender às metas de latência. Apresentamos o Dynasor, um sistema que otimiza o cálculo em tempo de inferência para consultas de raciocínio de LLM. Ao contrário dos motores tradicionais, o Dynasor rastreia e agenda solicitações dentro de consultas de raciocínio e utiliza o Certaindex, um proxy que mede o progresso estatístico do raciocínio com base na certeza do modelo, para orientar a alocação de cálculo dinamicamente. O Dynasor coadapta o agendamento com o progresso do raciocínio: aloca mais cálculo para consultas difíceis, reduz o cálculo para as mais simples e encerra consultas pouco promissoras precocemente, equilibrando precisão, latência e custo. Em conjuntos de dados e algoritmos diversos, o Dynasor reduz o cálculo em até 50% no processamento em lote e mantém taxas de consulta 3,3 vezes mais altas ou SLOs de latência 4,7 vezes mais rigorosos no atendimento online.

4

Edicho: Edição de Imagens Consistente na Natureza
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
23
2

Como uma necessidade verificada, a edição consistente em imagens do mundo real continua sendo um desafio técnico decorrente de vários fatores incontroláveis, como poses de objetos, condições de iluminação e ambientes de fotografia. O Edicho entra com uma solução sem necessidade de treinamento baseada em modelos de difusão, apresentando um princípio de design fundamental de usar correspondência explícita de imagens para orientar a edição. Especificamente, os principais componentes incluem um módulo de manipulação de atenção e uma estratégia de denoising de orientação livre de classificador cuidadosamente refinada (CFG), ambos levando em consideração a correspondência pré-estimada. Esse algoritmo de tempo de inferência desfruta de uma natureza plug-and-play e é compatível com a maioria dos métodos de edição baseados em difusão, como ControlNet e BrushNet. Resultados extensivos demonstram a eficácia do Edicho na edição consistente entre imagens sob configurações diversas. Vamos disponibilizar o código para facilitar estudos futuros.

5

PERSE: Avatares Generativos 3D Personalizados a partir de um Único Retrato
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
20
3

Apresentamos o PERSE, um método para construir um avatar generativo personalizado e animável a partir de um retrato de referência. Nosso modelo de avatar permite a edição de atributos faciais em um espaço latente contínuo e desembaraçado para controlar cada atributo facial, preservando a identidade do indivíduo. Para alcançar isso, nosso método começa sintetizando conjuntos de dados de vídeo 2D sintéticos em larga escala, nos quais cada vídeo contém mudanças consistentes na expressão facial e no ponto de vista, combinadas com uma variação em um atributo facial específico da entrada original. Propomos um novo pipeline para produzir vídeos 2D fotorrealistas de alta qualidade com edição de atributos faciais. Aproveitando este conjunto de dados de atributos sintéticos, apresentamos um método de criação de avatar personalizado baseado no 3D Gaussian Splatting, aprendendo um espaço latente contínuo e desembaraçado para manipulação intuitiva de atributos faciais. Para garantir transições suaves neste espaço latente, introduzimos uma técnica de regularização do espaço latente usando faces 2D interpoladas como supervisão. Comparado a abordagens anteriores, demonstramos que o PERSE gera avatares de alta qualidade com atributos interpolados, preservando a identidade da pessoa de referência.

6

Facilitando a adaptação de grandes modelos de linguagem em russo com Propagação de Incorporação Aprendida
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

Os rápidos avanços das tecnologias de modelos de linguagem grandes (LLM) levaram à introdução de LLMs de código aberto, ajustados para instrução, que possuem a mesma qualidade de geração de texto que os equivalentes de ponta, como o GPT-4. Enquanto a emergência desses modelos acelera a adoção das tecnologias LLM em ambientes de informações sensíveis, os autores desses modelos não divulgam os dados de treinamento necessários para a replicação dos resultados, tornando as conquistas exclusivas do modelo. Uma vez que esses modelos de código aberto também são multilíngues, isso, por sua vez, reduz os benefícios de treinar LLMs específicos para idiomas, uma vez que a eficiência aprimorada de computação de inferência se torna a única vantagem garantida desse procedimento custoso. Opções mais econômicas, como a extensão de vocabulário e o subsequente pré-treinamento contínuo, também são inibidas pela falta de acesso a dados de ajuste de instrução de alta qualidade, uma vez que esse é o principal fator por trás das capacidades de resolução de tarefas do LLM resultante. Para lidar com as limitações e reduzir os custos do pipeline de adaptação de idiomas, propomos a Propagação de Incorporação Aprendida (LEP). Ao contrário das abordagens existentes, nosso método possui requisitos menores de tamanho de dados de treinamento devido ao impacto mínimo no conhecimento existente do LLM, que reforçamos usando um procedimento de propagação de incorporação ad hoc inovador que permite pular a etapa de ajuste de instrução e, em vez disso, implantar o novo conhecimento de idioma diretamente em qualquer variante de instrução existente. Avaliamos quatro adaptações de vocabulário russo para LLaMa-3-8B e Mistral-7B, mostrando que o LEP é competitivo com métodos tradicionais de ajuste de instrução, alcançando desempenho comparável ao OpenChat 3.5 e LLaMa-3-8B-Instruct, com melhorias adicionais por meio de auto-calibração e ajuste contínuo aprimorando as capacidades de resolução de tarefas.

7

OneKE: Um Sistema de Extração de Conhecimento Baseado em Agentes LLM Guiados por Esquema Dockerizado
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

Apresentamos o OneKE, um sistema de extração de conhecimento guiado por esquema dockerizado, que pode extrair conhecimento da Web e de livros em PDF brutos, e suportar vários domínios (ciência, notícias, etc.). Especificamente, projetamos o OneKE com múltiplos agentes e uma base de conhecimento configurável. Diferentes agentes desempenham seus papéis respectivos, possibilitando suporte para vários cenários de extração. A base de conhecimento configurável facilita a configuração do esquema, a depuração e correção de casos de erro, melhorando ainda mais o desempenho. Avaliações empíricas em conjuntos de dados de referência demonstram a eficácia do OneKE, enquanto estudos de caso elucidam ainda mais sua adaptabilidade a diversas tarefas em múltiplos domínios, destacando seu potencial para amplas aplicações. Disponibilizamos o código-fonte em https://github.com/zjunlp/OneKE e lançamos um vídeo em http://oneke.openkg.cn/demo.mp4.

8

Percepção Lenta: Vamos Perceber Figuras Geométricas Passo a Passo
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
16
2

Recentemente, "visual o1" começou a entrar no campo de visão das pessoas, com expectativas de que este design de pensamento lento possa resolver tarefas de raciocínio visual, especialmente problemas matemáticos geométricos. No entanto, a realidade é que os atuais LVLMs (Large Vision Language Models) mal conseguem copiar com precisão uma figura geométrica, quanto mais compreender verdadeiramente a lógica complexa e as relações espaciais inerentes dentro das formas geométricas. Acreditamos que a cópia precisa (percepção forte) é o primeiro passo para o visual o1. Portanto, introduzimos o conceito de "percepção lenta" (SP), que orienta o modelo a perceber gradualmente combinações básicas de pontos e linhas, assim como nós humanos, reconstruímos estruturas geométricas complexas progressivamente. Existem duas etapas em SP: a) decomposição da percepção. A percepção não é instantânea. Nesta etapa, figuras geométricas complexas são decompostas em unidades simples básicas para unificar a representação da geometria. b) fluxo de percepção, que reconhece que traçar uma linha com precisão não é uma tarefa fácil. Esta etapa visa evitar "saltos visuais longos" na regressão de segmentos de linha, utilizando uma "régua perceptual" proposta para traçar cada linha traço a traço. Surpreendentemente, tal maneira de percepção semelhante à humana desfruta de uma lei de escalonamento de tempo de inferência - quanto mais lento, melhor. Pesquisadores se esforçaram para acelerar a percepção do modelo no passado, mas agora estamos desacelerando, permitindo que o modelo leia a imagem passo a passo e cuidadosamente.

9

HumanEval Pro e MBPP Pro: Avaliando Modelos de Linguagem Grandes na Geração de Código Autoinvocável
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
14
3

Apresentamos a geração de código autoinvocável, uma nova tarefa projetada para avaliar as capacidades progressivas de raciocínio e resolução de problemas de LLMs. Nesta tarefa, os modelos são apresentados com um problema base e um problema mais complexo relacionado. Eles devem resolver o problema base e então utilizar sua solução para abordar o problema mais complexo. Este trabalho apresenta três contribuições-chave. Primeiramente, propomos uma receita geral para gerar versões mais desafiadoras de benchmarks existentes, resultando em três novos benchmarks: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, especificamente projetados para avaliar LLMs na geração de código autoinvocável. Em segundo lugar, a partir da análise dos resultados experimentais de mais de vinte LLMs em nossos benchmarks, temos duas observações importantes: (i) A maioria dos LLMs se destaca em benchmarks tradicionais de geração de código como HumanEval e MBPP, mas seu desempenho diminui em tarefas autoinvocáveis. Por exemplo, o1-mini atinge 96,2% pass@1 em HumanEval, mas apenas 76,2% em HumanEval Pro. (ii) Na tarefa de geração de código autoinvocável, os modelos ajustados às instruções demonstram apenas melhorias marginais em comparação com os modelos base. Em terceiro lugar, revelamos os tipos de modos de falha que existem em nossos resultados de avaliação. Todos esses resultados destacam a necessidade de avanços adicionais em tarefas de geração de código autoinvocável e fornecem uma nova direção para pesquisas futuras sobre o aprimoramento das capacidades de raciocínio de código dos LLMs.

Dec 30
Dec 31
Jan 1