ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Instruções Explicativas: Rumo à Compreensão Unificada de Tarefas de Visão e Generalização sem Supervisão
Explanatory Instructions: Towards Unified Vision Tasks Understanding and Zero-shot Generalization

Dec 24
ByYang Shen, Xiu-Shen Wei, Yifan Sun, Yuxin Song, Tao Yuan, Jian Jin, Heyang Xu, Yazhou Yao, Errui Ding
74
2

A Visão Computacional (CV) ainda não conseguiu alcançar completamente a generalização de tarefas sem treinamento observada no Processamento de Linguagem Natural (NLP), apesar de seguir muitos dos marcos estabelecidos no NLP, como grandes modelos de transformadores, extenso pré-treinamento e o paradigma de auto-regressão, entre outros. Neste artigo, exploramos a ideia de que a CV adota definições de tarefas discretas e terminológicas (por exemplo, "segmentação de imagem"), o que pode ser uma barreira-chave para a generalização de tarefas sem treinamento. Nossa hipótese é que, sem compreender verdadeiramente as tarefas previamente vistas - devido a essas definições terminológicas - os modelos profundos têm dificuldade em generalizar para tarefas novas. Para verificar isso, introduzimos Instruções Explicativas, que fornecem uma maneira intuitiva de definir os objetivos da tarefa de CV por meio de transformações linguísticas detalhadas, das imagens de entrada para as saídas. Criamos um conjunto de dados em grande escala composto por 12 milhões de triplas "entrada de imagem para instrução explicativa para saída", e treinamos um modelo de visão-linguagem baseado em auto-regressão (AR-based VLM) que recebe tanto imagens quanto instruções explicativas como entrada. Ao aprender a seguir essas instruções, o AR-based VLM alcança capacidades de zero-shot a nível de instrução para tarefas previamente vistas e demonstra uma forte generalização de zero-shot para tarefas de CV não vistas. O código e o conjunto de dados estarão disponíveis abertamente em nosso repositório no GitHub.

2

Sobre a Generalização Composicional de Modelos de Linguagem Multimodais para Imagens Médicas
On the Compositional Generalization of Multimodal LLMs for Medical Imaging

Dec 28
ByZhenyang Cai, Junying Chen, Rongsheng Wang, Weihong Wang, Yonglin Deng, Dingjie Song, Yize Chen, Zixu Zhang, Benyou Wang
42
4

Os modelos de linguagem multimodais de grande escala (MLLMs) possuem um potencial significativo no campo médico, mas suas capacidades são frequentemente limitadas pela falta de dados em certos domínios médicos, destacando a necessidade de compreender que tipos de imagens podem ser utilizados pelos MLLMs para generalização. Pesquisas atuais sugerem que o treinamento multi-tarefa supera o treinamento de tarefa única, uma vez que diferentes tarefas podem se beneficiar mutuamente, porém muitas vezes negligenciam as relações internas dentro dessas tarefas, fornecendo orientações limitadas na seleção de conjuntos de dados para aprimorar tarefas específicas. Para analisar esse fenômeno, tentamos empregar a generalização composicional (CG) - a capacidade dos modelos de entender combinações novas recombinando elementos aprendidos - como um framework orientador. Uma vez que imagens médicas podem ser precisamente definidas por Modalidade, Área Anatômica e Tarefa, proporcionando naturalmente um ambiente para explorar a CG. Portanto, reunimos 106 conjuntos de dados médicos para criar o Med-MAT para experimentos abrangentes. Os experimentos confirmaram que os MLLMs podem utilizar a CG para compreender imagens médicas não vistas e identificaram a CG como um dos principais impulsionadores da generalização observada no treinamento multi-tarefa. Adicionalmente, estudos adicionais demonstraram que a CG apoia efetivamente conjuntos de dados com dados limitados e oferece desempenho consistente em diferentes arquiteturas, destacando sua versatilidade e ampla aplicabilidade. O Med-MAT está disponível publicamente em https://github.com/FreedomIntelligence/Med-MAT.

3

Dando Vida aos Objetos: Geração 4D a partir de objetos 3D
Bringing Objects to Life: 4D generation from 3D objects

Dec 29
ByOhad Rahamim, Ori Malca, Dvir Samuel, Gal Chechik
41
2

Os avanços recentes em modelagem generativa agora permitem a criação de conteúdo 4D (objetos 3D em movimento) controlado por prompts de texto. A geração 4D tem um grande potencial em aplicações como mundos virtuais, mídia e jogos, mas os métodos existentes oferecem controle limitado sobre a aparência e geometria do conteúdo gerado. Neste trabalho, introduzimos um método para animar objetos 3D fornecidos pelo usuário condicionando-os a prompts textuais para orientar a geração 4D, permitindo animações personalizadas enquanto mantemos a identidade do objeto original. Primeiramente, convertemos uma malha 3D em um Campo de Radiância Neural (NeRF) "estático" 4D que preserva os atributos visuais do objeto de entrada. Em seguida, animamos o objeto usando um modelo de difusão de Imagem para Vídeo conduzido por texto. Para melhorar o realismo do movimento, introduzimos um protocolo incremental de seleção de pontos de vista para amostrar perspectivas e promover movimentos realistas, e uma perda de Amostragem de Destilação de Pontuação (SDS) mascarada, que utiliza mapas de atenção para focar a otimização em regiões relevantes. Avaliamos nosso modelo em termos de coerência temporal, aderência aos prompts e fidelidade visual, e descobrimos que nosso método supera as bases que se baseiam em outras abordagens, alcançando melhorias de até três vezes na preservação de identidade medida pelos escores LPIPS, e equilibrando efetivamente a qualidade visual com o conteúdo dinâmico.

4

Não Pense Demais para 2+3=? Sobre o Excesso de Pensamento dos LLMs Tipo o1
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs

Dec 30
ByXingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu
40
2

O notável desempenho de modelos como o OpenAI o1 pode ser atribuído à sua capacidade de emular um pensamento de longo prazo semelhante ao humano durante a inferência. Esses modelos empregam processos de cadeia de pensamento estendida (CoT), explorando múltiplas estratégias para aprimorar as capacidades de resolução de problemas. No entanto, uma questão crítica permanece: Como dimensionar inteligentemente e de forma eficiente os recursos computacionais durante os testes. Este artigo apresenta o primeiro estudo abrangente sobre o problema prevalente de pensar demais nesses modelos, onde recursos computacionais excessivos são alocados para problemas simples com benefícios mínimos. Introduzimos novas métricas de eficiência de ambas as perspectivas de resultado e processo para avaliar o uso racional de recursos computacionais por modelos semelhantes ao o1. Usando um paradigma de autoaprendizagem, propomos estratégias para mitigar o pensamento excessivo, otimizando os processos de raciocínio sem comprometer a precisão. Os resultados experimentais mostram que nossa abordagem reduz com sucesso a sobrecarga computacional, preservando o desempenho do modelo em uma variedade de conjuntos de testes com níveis de dificuldade variados, como GSM8K, MATH500, GPQA e AIME.

5

Servindo eficientemente Programas de Raciocínio LLM com Certaindex
Efficiently Serving LLM Reasoning Programs with Certaindex

Dec 30
ByYichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
36
2

A rápida evolução dos grandes modelos de linguagem (LLMs) desbloqueou suas capacidades em tarefas avançadas de raciocínio, como resolução de problemas matemáticos, geração de código e análise jurídica. Central a esse progresso estão os algoritmos de raciocínio em tempo de inferência, que refinam as saídas explorando múltiplos caminhos de solução, ao custo de aumentar as demandas computacionais e as latências de resposta. Os sistemas de atendimento existentes falham em se adaptar aos comportamentos de escalonamento desses algoritmos ou à variação da dificuldade das consultas, levando a um uso ineficiente de recursos e a não atender às metas de latência. Apresentamos o Dynasor, um sistema que otimiza o cálculo em tempo de inferência para consultas de raciocínio de LLM. Ao contrário dos motores tradicionais, o Dynasor rastreia e agenda solicitações dentro de consultas de raciocínio e utiliza o Certaindex, um proxy que mede o progresso estatístico do raciocínio com base na certeza do modelo, para orientar a alocação de cálculo dinamicamente. O Dynasor coadapta o agendamento com o progresso do raciocínio: aloca mais cálculo para consultas difíceis, reduz o cálculo para as mais simples e encerra consultas pouco promissoras precocemente, equilibrando precisão, latência e custo. Em conjuntos de dados e algoritmos diversos, o Dynasor reduz o cálculo em até 50% no processamento em lote e mantém taxas de consulta 3,3 vezes mais altas ou SLOs de latência 4,7 vezes mais rigorosos no atendimento online.

6

Treinando Agentes e Verificadores de Engenharia de Software com SWE-Gym
Training Software Engineering Agents and Verifiers with SWE-Gym

Dec 30
ByJiayi Pan, Xingyao Wang, Graham Neubig, Navdeep Jaitly, Heng Ji, Alane Suhr, Yizhe Zhang
25
2

Apresentamos o SWE-Gym, o primeiro ambiente para treinar agentes de engenharia de software do mundo real. O SWE-Gym contém 2.438 instâncias de tarefas de Python do mundo real, cada uma composta por uma base de código com um ambiente de execução executável, testes unitários e uma tarefa especificada em linguagem natural. Utilizamos o SWE-Gym para treinar agentes de engenharia de software baseados em modelos de linguagem, alcançando até 19% de ganhos absolutos na taxa de resolução nos populares conjuntos de testes SWE-Bench Verified e Lite. Também experimentamos com escalonamento no tempo de inferência através de verificadores treinados em trajetórias de agentes amostradas do SWE-Gym. Quando combinado com nossos agentes de SWE ajustados, alcançamos 32,0% e 26,0% no SWE-Bench Verified e Lite, respectivamente, refletindo um novo estado-da-arte para agentes de SWE de peso aberto. Para facilitar pesquisas adicionais, disponibilizamos publicamente o SWE-Gym, modelos e trajetórias de agentes.

7

TangoFlux: Geração de Texto para Áudio Super Rápida e Fiel com Correspondência de Fluxo e Otimização de Preferência Classificada por Clap.
TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization

Dec 30
ByChia-Yu Hung, Navonil Majumder, Zhifeng Kong, Ambuj Mehrish, Rafael Valle, Bryan Catanzaro, Soujanya Poria
24
4

Apresentamos o TangoFlux, um modelo generativo eficiente de Texto-para-Áudio (TTA) com 515M parâmetros, capaz de gerar até 30 segundos de áudio a 44.1kHz em apenas 3.7 segundos em uma única GPU A40. Um desafio chave na alinhamento de modelos TTA reside na dificuldade de criar pares de preferência, uma vez que o TTA carece de mecanismos estruturados como recompensas verificáveis ou respostas padrão disponíveis para Modelos de Linguagem Grandes (LLMs). Para lidar com isso, propomos a Otimização de Preferência Classificada por Aprendizado de Contraste (CRPO), um novo framework que gera e otimiza iterativamente dados de preferência para aprimorar o alinhamento do TTA. Demonstramos que o conjunto de dados de preferência de áudio gerado usando o CRPO supera as alternativas existentes. Com este framework, o TangoFlux alcança desempenho de ponta em benchmarks objetivos e subjetivos. Disponibilizamos todo o código e modelos em código aberto para apoiar pesquisas futuras na geração de TTA.

8

Edicho: Edição de Imagens Consistente na Natureza
Edicho: Consistent Image Editing in the Wild

Dec 30
ByQingyan Bai, Hao Ouyang, Yinghao Xu, Qiuyu Wang, Ceyuan Yang, Ka Leong Cheng, Yujun Shen, Qifeng Chen
22
2

Como uma necessidade verificada, a edição consistente em imagens do mundo real continua sendo um desafio técnico decorrente de vários fatores incontroláveis, como poses de objetos, condições de iluminação e ambientes de fotografia. O Edicho entra com uma solução sem necessidade de treinamento baseada em modelos de difusão, apresentando um princípio de design fundamental de usar correspondência explícita de imagens para orientar a edição. Especificamente, os principais componentes incluem um módulo de manipulação de atenção e uma estratégia de denoising de orientação livre de classificador cuidadosamente refinada (CFG), ambos levando em consideração a correspondência pré-estimada. Esse algoritmo de tempo de inferência desfruta de uma natureza plug-and-play e é compatível com a maioria dos métodos de edição baseados em difusão, como ControlNet e BrushNet. Resultados extensivos demonstram a eficácia do Edicho na edição consistente entre imagens sob configurações diversas. Vamos disponibilizar o código para facilitar estudos futuros.

9

PERSE: Avatares Generativos 3D Personalizados a partir de um Único Retrato
PERSE: Personalized 3D Generative Avatars from A Single Portrait

Dec 30
ByHyunsoo Cha, Inhee Lee, Hanbyul Joo
19
3

Apresentamos o PERSE, um método para construir um avatar generativo personalizado e animável a partir de um retrato de referência. Nosso modelo de avatar permite a edição de atributos faciais em um espaço latente contínuo e desembaraçado para controlar cada atributo facial, preservando a identidade do indivíduo. Para alcançar isso, nosso método começa sintetizando conjuntos de dados de vídeo 2D sintéticos em larga escala, nos quais cada vídeo contém mudanças consistentes na expressão facial e no ponto de vista, combinadas com uma variação em um atributo facial específico da entrada original. Propomos um novo pipeline para produzir vídeos 2D fotorrealistas de alta qualidade com edição de atributos faciais. Aproveitando este conjunto de dados de atributos sintéticos, apresentamos um método de criação de avatar personalizado baseado no 3D Gaussian Splatting, aprendendo um espaço latente contínuo e desembaraçado para manipulação intuitiva de atributos faciais. Para garantir transições suaves neste espaço latente, introduzimos uma técnica de regularização do espaço latente usando faces 2D interpoladas como supervisão. Comparado a abordagens anteriores, demonstramos que o PERSE gera avatares de alta qualidade com atributos interpolados, preservando a identidade da pessoa de referência.

10

Facilitando a adaptação de grandes modelos de linguagem em russo com Propagação de Incorporação Aprendida
Facilitating large language model Russian adaptation with Learned Embedding Propagation

Dec 30
ByMikhail Tikhomirov, Daniil Chernyshev
18
2

Os rápidos avanços das tecnologias de modelos de linguagem grandes (LLM) levaram à introdução de LLMs de código aberto, ajustados para instrução, que possuem a mesma qualidade de geração de texto que os equivalentes de ponta, como o GPT-4. Enquanto a emergência desses modelos acelera a adoção das tecnologias LLM em ambientes de informações sensíveis, os autores desses modelos não divulgam os dados de treinamento necessários para a replicação dos resultados, tornando as conquistas exclusivas do modelo. Uma vez que esses modelos de código aberto também são multilíngues, isso, por sua vez, reduz os benefícios de treinar LLMs específicos para idiomas, uma vez que a eficiência aprimorada de computação de inferência se torna a única vantagem garantida desse procedimento custoso. Opções mais econômicas, como a extensão de vocabulário e o subsequente pré-treinamento contínuo, também são inibidas pela falta de acesso a dados de ajuste de instrução de alta qualidade, uma vez que esse é o principal fator por trás das capacidades de resolução de tarefas do LLM resultante. Para lidar com as limitações e reduzir os custos do pipeline de adaptação de idiomas, propomos a Propagação de Incorporação Aprendida (LEP). Ao contrário das abordagens existentes, nosso método possui requisitos menores de tamanho de dados de treinamento devido ao impacto mínimo no conhecimento existente do LLM, que reforçamos usando um procedimento de propagação de incorporação ad hoc inovador que permite pular a etapa de ajuste de instrução e, em vez disso, implantar o novo conhecimento de idioma diretamente em qualquer variante de instrução existente. Avaliamos quatro adaptações de vocabulário russo para LLaMa-3-8B e Mistral-7B, mostrando que o LEP é competitivo com métodos tradicionais de ajuste de instrução, alcançando desempenho comparável ao OpenChat 3.5 e LLaMa-3-8B-Instruct, com melhorias adicionais por meio de auto-calibração e ajuste contínuo aprimorando as capacidades de resolução de tarefas.

11

OneKE: Um Sistema de Extração de Conhecimento Baseado em Agentes LLM Guiados por Esquema Dockerizado
OneKE: A Dockerized Schema-Guided LLM Agent-based Knowledge Extraction System

Dec 28
ByYujie Luo, Xiangyuan Ru, Kangwei Liu, Lin Yuan, Mengshu Sun, Ningyu Zhang, Lei Liang, Zhiqiang Zhang, Jun Zhou, Lanning Wei, Da Zheng, Haofen Wang, Huajun Chen
17
2

Apresentamos o OneKE, um sistema de extração de conhecimento guiado por esquema dockerizado, que pode extrair conhecimento da Web e de livros em PDF brutos, e suportar vários domínios (ciência, notícias, etc.). Especificamente, projetamos o OneKE com múltiplos agentes e uma base de conhecimento configurável. Diferentes agentes desempenham seus papéis respectivos, possibilitando suporte para vários cenários de extração. A base de conhecimento configurável facilita a configuração do esquema, a depuração e correção de casos de erro, melhorando ainda mais o desempenho. Avaliações empíricas em conjuntos de dados de referência demonstram a eficácia do OneKE, enquanto estudos de caso elucidam ainda mais sua adaptabilidade a diversas tarefas em múltiplos domínios, destacando seu potencial para amplas aplicações. Disponibilizamos o código-fonte em https://github.com/zjunlp/OneKE e lançamos um vídeo em http://oneke.openkg.cn/demo.mp4.

12

Percepção Lenta: Vamos Perceber Figuras Geométricas Passo a Passo
Slow Perception: Let's Perceive Geometric Figures Step-by-step

Dec 30
ByHaoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang
15
2

Recentemente, "visual o1" começou a entrar no campo de visão das pessoas, com expectativas de que este design de pensamento lento possa resolver tarefas de raciocínio visual, especialmente problemas matemáticos geométricos. No entanto, a realidade é que os atuais LVLMs (Large Vision Language Models) mal conseguem copiar com precisão uma figura geométrica, quanto mais compreender verdadeiramente a lógica complexa e as relações espaciais inerentes dentro das formas geométricas. Acreditamos que a cópia precisa (percepção forte) é o primeiro passo para o visual o1. Portanto, introduzimos o conceito de "percepção lenta" (SP), que orienta o modelo a perceber gradualmente combinações básicas de pontos e linhas, assim como nós humanos, reconstruímos estruturas geométricas complexas progressivamente. Existem duas etapas em SP: a) decomposição da percepção. A percepção não é instantânea. Nesta etapa, figuras geométricas complexas são decompostas em unidades simples básicas para unificar a representação da geometria. b) fluxo de percepção, que reconhece que traçar uma linha com precisão não é uma tarefa fácil. Esta etapa visa evitar "saltos visuais longos" na regressão de segmentos de linha, utilizando uma "régua perceptual" proposta para traçar cada linha traço a traço. Surpreendentemente, tal maneira de percepção semelhante à humana desfruta de uma lei de escalonamento de tempo de inferência - quanto mais lento, melhor. Pesquisadores se esforçaram para acelerar a percepção do modelo no passado, mas agora estamos desacelerando, permitindo que o modelo leia a imagem passo a passo e cuidadosamente.

13

HumanEval Pro e MBPP Pro: Avaliando Modelos de Linguagem Grandes na Geração de Código Autoinvocável
HumanEval Pro and MBPP Pro: Evaluating Large Language Models on Self-invoking Code Generation

Dec 30
ByZhaojian Yu, Yilun Zhao, Arman Cohan, Xiao-Ping Zhang
13
3

Apresentamos a geração de código autoinvocável, uma nova tarefa projetada para avaliar as capacidades progressivas de raciocínio e resolução de problemas de LLMs. Nesta tarefa, os modelos são apresentados com um problema base e um problema mais complexo relacionado. Eles devem resolver o problema base e então utilizar sua solução para abordar o problema mais complexo. Este trabalho apresenta três contribuições-chave. Primeiramente, propomos uma receita geral para gerar versões mais desafiadoras de benchmarks existentes, resultando em três novos benchmarks: HumanEval Pro, MBPP Pro e BigCodeBench-Lite Pro, especificamente projetados para avaliar LLMs na geração de código autoinvocável. Em segundo lugar, a partir da análise dos resultados experimentais de mais de vinte LLMs em nossos benchmarks, temos duas observações importantes: (i) A maioria dos LLMs se destaca em benchmarks tradicionais de geração de código como HumanEval e MBPP, mas seu desempenho diminui em tarefas autoinvocáveis. Por exemplo, o1-mini atinge 96,2% pass@1 em HumanEval, mas apenas 76,2% em HumanEval Pro. (ii) Na tarefa de geração de código autoinvocável, os modelos ajustados às instruções demonstram apenas melhorias marginais em comparação com os modelos base. Em terceiro lugar, revelamos os tipos de modos de falha que existem em nossos resultados de avaliação. Todos esses resultados destacam a necessidade de avanços adicionais em tarefas de geração de código autoinvocável e fornecem uma nova direção para pesquisas futuras sobre o aprimoramento das capacidades de raciocínio de código dos LLMs.

Dec 31
Jan 1
Jan 2