ChatPaper.aiChatPaper.ai
Início

arXiv

HuggingFace

PreçosContaÁrea de trabalho

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

Artigos de Pesquisa em IA Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

1

Treinando Modelos de Linguagem Grandes para Raciocinar em um Espaço Latente Contínuo
Training Large Language Models to Reason in a Continuous Latent Space

Dec 9
ByShibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
94
7

Os modelos de linguagem de grande escala (LLMs) estão restritos a raciocinar no "espaço da linguagem", onde normalmente expressam o processo de raciocínio com uma cadeia de pensamento (CoT) para resolver um problema de raciocínio complexo. No entanto, argumentamos que o espaço da linguagem nem sempre pode ser o mais adequado para o raciocínio. Por exemplo, a maioria dos tokens de palavras são principalmente para a coerência textual e não essenciais para o raciocínio, enquanto alguns tokens críticos exigem um planejamento complexo e representam enormes desafios para os LLMs. Para explorar o potencial do raciocínio dos LLMs em um espaço latente irrestrito em vez de usar linguagem natural, introduzimos um novo paradigma chamado Coconut (Cadeia de Pensamento Contínuo). Utilizamos o último estado oculto do LLM como representação do estado de raciocínio (denominado "pensamento contínuo"). Em vez de decodificá-lo em um token de palavra, o alimentamos de volta ao LLM como o embedding de entrada subsequente diretamente no espaço contínuo. Experimentos mostram que o Coconut pode aumentar efetivamente o desempenho do LLM em várias tarefas de raciocínio. Esse novo paradigma de raciocínio latente resulta em padrões de raciocínio avançados emergentes: o pensamento contínuo pode codificar múltiplas etapas de raciocínio seguintes alternativas, permitindo que o modelo execute uma busca em largura (BFS) para resolver o problema, em vez de se comprometer prematuramente com um único caminho determinístico como o CoT. O Coconut supera o CoT em certas tarefas de raciocínio lógico que exigem um retrocesso substancial durante o planejamento, com menos tokens de pensamento durante a inferência. Essas descobertas demonstram a promessa do raciocínio latente e oferecem insights valiosos para pesquisas futuras.

2

ProcessBench: Identificação de Erros de Processo no Raciocínio Matemático
ProcessBench: Identifying Process Errors in Mathematical Reasoning

Dec 9
ByChujie Zheng, Zhenru Zhang, Beichen Zhang, Runji Lin, Keming Lu, Bowen Yu, Dayiheng Liu, Jingren Zhou, Junyang Lin
86
6

À medida que os modelos de linguagem frequentemente cometem erros ao resolver problemas matemáticos, a identificação automatizada de erros no processo de raciocínio torna-se cada vez mais significativa para sua supervisão escalável. Neste artigo, apresentamos o ProcessBench para medir a capacidade de identificar etapas errôneas no raciocínio matemático. Ele consiste em 3.400 casos de teste, focados principalmente em problemas matemáticos de nível de competição e olimpíada. Cada caso de teste contém uma solução passo a passo com a localização do erro anotada por especialistas humanos. Os modelos devem identificar o primeiro passo que contém um erro, ou concluir que todos os passos estão corretos. Realizamos uma extensa avaliação no ProcessBench, envolvendo dois tipos de modelos: modelos de recompensa de processo (PRMs) e modelos críticos, nos quais, para estes últimos, solicitamos que modelos de linguagem geral critiquem cada etapa da solução. Retiramos duas observações principais: (1) Os PRMs existentes geralmente falham em generalizar para problemas matemáticos mais desafiadores além de GSM8K e MATH. Eles têm desempenho inferior tanto aos modelos críticos (ou seja, modelos de linguagem geral solicitados) quanto ao nosso próprio PRM treinado, que é ajustado de forma direta no conjunto de dados PRM800K. (2) O melhor modelo de código aberto, QwQ-32B-Preview, demonstrou a capacidade de crítica competitiva com o modelo proprietário GPT-4o, apesar de ainda estar atrás do o1-mini especializado em raciocínio. Esperamos que o ProcessBench possa promover pesquisas futuras na avaliação do processo de raciocínio, abrindo caminho para a supervisão escalável de modelos de linguagem.

3

Desvendando a Complexidade da Memória em Agentes de RL: uma Abordagem para Classificação e Avaliação
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation

Dec 9
ByEgor Cherepanov, Nikita Kachaev, Artem Zholus, Alexey K. Kovalev, Aleksandr I. Panov
72
2

A incorporação de memória em agentes é essencial para inúmeras tarefas no domínio do Aprendizado por Reforço (RL). Em particular, a memória é fundamental para tarefas que exigem a utilização de informações passadas, adaptação a ambientes novos e melhoria na eficiência de amostragem. No entanto, o termo "memória" engloba uma ampla gama de conceitos, o que, juntamente com a falta de uma metodologia unificada para validar a memória de um agente, leva a julgamentos errôneos sobre as capacidades de memória dos agentes e impede a comparação objetiva com outros agentes aprimorados com memória. Este artigo tem como objetivo simplificar o conceito de memória em RL, fornecendo definições precisas e práticas de tipos de memória de agentes, como memória de longo prazo versus memória de curto prazo e memória declarativa versus memória procedural, inspiradas na ciência cognitiva. Utilizando essas definições, categorizamos diferentes classes de memória de agentes, propomos uma metodologia experimental robusta para avaliar as capacidades de memória de agentes de RL e padronizamos as avaliações. Além disso, demonstramos empiricamente a importância de seguir a metodologia proposta ao avaliar diferentes tipos de memória de agentes, conduzindo experimentos com diferentes agentes de RL e mostrando as consequências de sua violação.

4

Maya: Um Modelo Multilíngue Multimodal Ajustado por Instruções
Maya: An Instruction Finetuned Multilingual Multimodal Model

Dec 10
ByNahid Alam, Karthik Reddy Kanjula, Surya Guthikonda, Timothy Chung, Bala Krishna S Vegesna, Abhipsha Das, Anthony Susevski, Ryan Sze-Yin Chan, S M Iftekhar Uddin, Shayekh Bin Islam, Roshan Santhosh, Snegha A, Drishti Sharma, Chen Liu, Isha Chaturvedi, Genta Indra Winata, Ashvanth. S, Snehanshu Mukherjee, Alham Fikri Aji
28
2

O rápido desenvolvimento de grandes Modelos de Visão-Linguagem (VLMs) levou a resultados impressionantes em benchmarks acadêmicos, principalmente em idiomas amplamente falados. No entanto, permanecem lacunas significativas na capacidade dos atuais VLMs lidarem com idiomas de recursos limitados e contextos culturais variados, em grande parte devido à falta de dados de alta qualidade, diversificados e seguros. Consequentemente, esses modelos frequentemente têm dificuldade em compreender idiomas de recursos limitados e nuances culturais de forma livre de toxicidade. Para lidar com essas limitações, apresentamos Maya, um modelo Multimodal Multilíngue de código aberto. Nossas contribuições são triplas: 1) um conjunto de dados de pré-treinamento de imagem-texto multilíngue em oito idiomas, baseado no conjunto de dados de pré-treinamento LLaVA; 2) uma análise minuciosa de toxicidade dentro do conjunto de dados LLaVA, seguida pela criação de uma versão livre de toxicidade em oito idiomas; e 3) um modelo de imagem-texto multilíngue que suporta esses idiomas, aprimorando a compreensão cultural e linguística em tarefas de visão-linguagem. Código disponível em https://github.com/nahidalam/maya.

5

Ao Redor do Mundo em 80 Passos: Uma Abordagem Generativa para Geolocalização Visual Global
Around the World in 80 Timesteps: A Generative Approach to Global Visual Geolocation

Dec 9
ByNicolas Dufour, David Picard, Vicky Kalogeiton, Loic Landrieu
24
2

A geolocalização visual global prevê onde uma imagem foi capturada na Terra. Como as imagens variam em quão precisamente podem ser localizadas, essa tarefa envolve inherentemente um grau significativo de ambiguidade. No entanto, abordagens existentes são determinísticas e ignoram esse aspecto. Neste artigo, temos como objetivo reduzir a lacuna entre a geolocalização tradicional e os métodos generativos modernos. Propomos a primeira abordagem generativa de geolocalização baseada em difusão e correspondência de fluxo Riemanniano, onde o processo de remoção de ruído opera diretamente na superfície da Terra. Nosso modelo alcança desempenho de ponta em três benchmarks de geolocalização visual: OpenStreetView-5M, YFCC-100M e iNat21. Além disso, introduzimos a tarefa de geolocalização visual probabilística, onde o modelo prevê uma distribuição de probabilidade sobre todas as localizações possíveis em vez de um único ponto. Apresentamos novas métricas e bases para esta tarefa, demonstrando as vantagens de nossa abordagem baseada em difusão. Códigos e modelos estarão disponíveis.

6

Divot: Difusão Potencializa o Tokenizador de Vídeo para Compreensão e Geração
Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation

Dec 5
ByYuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan
16
2

Nos últimos anos, houve um aumento significativo de interesse em unificar a compreensão e geração de imagens em Grandes Modelos de Linguagem (LLMs). Esse crescente interesse nos motivou a explorar a extensão dessa unificação para vídeos. O desafio central reside no desenvolvimento de um tokenizador de vídeo versátil que capture tanto as características espaciais quanto a dinâmica temporal dos vídeos para obter representações para LLMs, e essas representações podem ser posteriormente decodificadas em clipes de vídeo realistas para possibilitar a geração de vídeos. Neste trabalho, apresentamos o Divot, um Tokenizador de Vídeo Alimentado por Difusão, que aproveita o processo de difusão para aprendizado de representação de vídeo auto-supervisionado. Sustentamos que se um modelo de difusão de vídeo puder efetivamente remover ruídos de clipes de vídeo ao considerar as características de um tokenizador de vídeo como condição, então o tokenizador capturou com sucesso informações espaciais e temporais robustas. Além disso, o modelo de difusão de vídeo funciona inerentemente como um decodificador, decodificando vídeos a partir de suas representações. Construindo sobre o tokenizador Divot, apresentamos o Divot-Vicuna através de autoregressão de vídeo para texto e geração de texto para vídeo, modelando as distribuições de características Divot contínuas com um Modelo de Mistura Gaussiano. Resultados experimentais demonstram que nosso tokenizador de vídeo baseado em difusão, quando integrado a um LLM pré-treinado, alcança desempenho competitivo em diversos benchmarks de compreensão e geração de vídeo. O Divot-Vicuna ajustado para instrução também se destaca em contar histórias em vídeo, gerando narrativas entrelaçadas e vídeos correspondentes.

7

Explorando Anotações de Conceitos Multigranulares para Modelos de Linguagem Multimodais de Grande Escala
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Dec 8
ByXiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
16
2

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) destacam-se em tarefas de visão e linguagem ao serem pré-treinados exclusivamente em anotações de conceitos de granularidade grosseira (por exemplo, legendas de imagens). Nossa hipótese é que a integração de anotações de conceitos de granularidade fina (por exemplo, rótulos de objetos e regiões de objetos) irá melhorar ainda mais o desempenho, uma vez que ambas as granularidades de dados se complementam em termos de amplitude e profundidade na representação de conceitos. Apresentamos um novo conjunto de dados com anotações de Conceitos Multimodais de Múltiplas Granularidades (MMGiC) para MLLMs. Ao construir o MMGiC, exploramos o impacto de diferentes receitas de dados na compreensão e geração multimodais. Nossas análises revelam que as anotações de conceitos de múltiplas granularidades se integram e se complementam, sob nosso modelo estruturado e um framework MLLM geral. Exploramos claramente e demonstramos o potencial do MMGiC para ajudar MLLMs a localizar e aprender conceitos de forma mais eficaz, alinhando visão e linguagem em múltiplas granularidades. Validamos ainda nossa hipótese investigando a comparação justa e a colaboração eficaz entre o MMGiC e dados de imagem e legenda em 12 referências de compreensão e geração multimodais, por exemplo, sua combinação apropriada alcança melhorias absolutas de 3,95% e 2,34% sobre os dados de imagem e legenda sozinhos em POPE e SEED-Bench. O código, dados e modelos estarão disponíveis em https://github.com/LooperXX/MMGiC.

8

Redes Delta com Portões: Melhorando o Mamba2 com a Regra Delta
Gated Delta Networks: Improving Mamba2 with Delta Rule

Dec 9
BySonglin Yang, Jan Kautz, Ali Hatamizadeh
12
4

Os Transformadores Lineares têm ganhado atenção como alternativas eficientes aos Transformadores padrão, porém seu desempenho em tarefas de recuperação e contexto longo tem sido limitado. Para lidar com essas limitações, trabalhos recentes têm explorado dois mecanismos distintos: o gating para controle adaptativo de memória e a regra de atualização delta para modificações precisas de memória. Observamos que esses mecanismos são complementares: o gating permite um apagamento rápido de memória enquanto a regra delta facilita atualizações direcionadas. Com base nessa percepção, introduzimos a regra delta gateada e desenvolvemos um algoritmo de treinamento paralelo otimizado para hardware moderno. Nossa arquitetura proposta, Gated DeltaNet, consistentemente supera modelos existentes como Mamba2 e DeltaNet em múltiplos benchmarks, incluindo modelagem de linguagem, raciocínio de senso comum, recuperação em contexto, extrapolação de comprimento e compreensão de contexto longo. Ainda melhoramos o desempenho ao desenvolver arquiteturas híbridas que combinam camadas Gated DeltaNet com atenção de janela deslizante ou camadas Mamba2, alcançando tanto eficiência de treinamento aprimorada quanto desempenho superior nas tarefas.

9

Você Vê, Você Consegue: Aprendizado de Criação 3D em Vídeos Livres de Pose em Escala
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale

Dec 9
ByBaorui Ma, Huachen Gao, Haoge Deng, Zhengxiong Luo, Tiejun Huang, Lulu Tang, Xinlong Wang
12
3

Os modelos de geração 3D recentes geralmente dependem de 'rótulos de ouro' 3D em escala limitada ou prioridades de difusão 2D para a criação de conteúdo 3D. No entanto, seu desempenho é limitado por prioridades 3D restritas devido à falta de paradigmas de aprendizado escaláveis. Neste trabalho, apresentamos o See3D, um modelo de difusão multi-visual condicional treinado em vídeos da Internet em grande escala para a criação 3D de mundo aberto. O modelo tem como objetivo obter conhecimento 3D apenas visualizando o conteúdo visual dos vastos e rapidamente crescentes dados de vídeo - Você Vê, Você Obtém. Para alcançar isso, primeiro escalamos os dados de treinamento usando um pipeline de curadoria de dados proposto que filtra automaticamente inconsistências multi-visual e observações insuficientes de vídeos de origem. Isso resulta em um conjunto de dados de grande escala, diversificado e de alta qualidade de imagens multi-visual, denominado WebVi3D, contendo 320 milhões de frames de 16 milhões de videoclipes. No entanto, aprender prioridades 3D genéricas de vídeos sem anotações explícitas de geometria 3D ou poses de câmera é complexo, e a anotação de poses para vídeos em escala web é proibitivamente cara. Para eliminar a necessidade de condições de pose, introduzimos um inovador condicionamento visual - um sinal visual puramente indutivo 2D gerado pela adição de ruído dependente do tempo aos dados de vídeo mascarados. Por fim, introduzimos um novo framework de geração 3D visual-condicional integrando o See3D em um pipeline baseado em warping para geração 3D de alta fidelidade. Nossas comparações numéricas e visuais em benchmarks de reconstrução única e esparsa mostram que o See3D, treinado em dados de vídeo econômicos e escaláveis, alcança notáveis capacidades de geração de mundo aberto e de zero-shot, superando significativamente modelos treinados em conjuntos de dados 3D caros e restritos. Consulte nossa página do projeto em: https://vision.baai.ac.cn/see3d

10

OmniDocBench: Avaliação de Análise de Documentos PDF Diversos com Anotações Abrangentes
OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

Dec 10
ByLinke Ouyang, Yuan Qu, Hongbin Zhou, Jiawei Zhu, Rui Zhang, Qunshu Lin, Bin Wang, Zhiyuan Zhao, Man Jiang, Xiaomeng Zhao, Jin Shi, Fan Wu, Pei Chu, Minghao Liu, Zhenxiang Li, Chao Xu, Bo Zhang, Botian Shi, Zhongying Tu, Conghui He
11
1

A extração de conteúdo de documentos é crucial em visão computacional, especialmente para atender às necessidades de dados de alta qualidade de grandes modelos de linguagem (LLMs) e tecnologias de geração com recuperação (RAG). No entanto, os métodos atuais de análise de documentos sofrem de limitações significativas em termos de diversidade e avaliação abrangente. Para enfrentar esses desafios, apresentamos o OmniDocBench, um novo benchmark de várias fontes projetado para avançar a extração automatizada de conteúdo de documentos. O OmniDocBench inclui um conjunto de dados de avaliação de alta qualidade meticulosamente elaborado e anotado, composto por nove tipos diversos de documentos, como artigos acadêmicos, livros didáticos, slides, entre outros. Nosso benchmark fornece um framework de avaliação flexível e abrangente com 19 rótulos de categoria de layout e 14 rótulos de atributo, possibilitando avaliações em vários níveis em conjuntos de dados completos, módulos individuais ou tipos de dados específicos. Utilizando o OmniDocBench, realizamos uma análise comparativa exaustiva de pipelines modulares existentes e métodos multimodais de ponta a ponta, destacando suas limitações no tratamento da diversidade de documentos e garantindo uma avaliação justa. O OmniDocBench estabelece um padrão de avaliação robusto, diversificado e justo para o campo de extração de conteúdo de documentos, oferecendo insights cruciais para avanços futuros e promovendo o desenvolvimento de tecnologias de análise de documentos. Os códigos e o conjunto de dados estão disponíveis em https://github.com/opendatalab/OmniDocBench.

11

MotionShop: Transferência de Movimento sem Uso de Exemplos em Modelos de Difusão de Vídeo com Mistura de Orientação de Pontuação
MotionShop: Zero-Shot Motion Transfer in Video Diffusion Models with Mixture of Score Guidance

Dec 6
ByHidir Yesiltepe, Tuna Han Salih Meral, Connor Dunlop, Pinar Yanardag
8
2

Neste trabalho, propomos a primeira abordagem de transferência de movimento em transformadores de difusão por meio de Mistura de Orientação de Pontuação (MOP), um framework fundamentado teoricamente para transferência de movimento em modelos de difusão. Nossa principal contribuição teórica reside na reformulação da pontuação condicional para decompor a pontuação de movimento e a pontuação de conteúdo em modelos de difusão. Ao formular a transferência de movimento como uma mistura de energias potenciais, a MOP preserva naturalmente a composição da cena e permite transformações de cena criativas, mantendo a integridade dos padrões de movimento transferidos. Esta amostragem inovadora opera diretamente em modelos de difusão de vídeo pré-treinados sem treinamento adicional ou ajuste fino. Através de experimentos extensivos, a MOP demonstra o manuseio bem-sucedido de diversos cenários, incluindo transferência de movimento de objeto único, múltiplos objetos e entre objetos, bem como transferência de movimento de câmera complexa. Além disso, introduzimos o MotionBench, o primeiro conjunto de dados de transferência de movimento consistindo de 200 vídeos de origem e 1000 movimentos transferidos, abrangendo transferências de objeto único/múltiplo e movimentos de câmera complexos.

12

Incorporação Global e Densa da Terra: Major TOM Flutuando no Espaço Latente
Global and Dense Embeddings of Earth: Major TOM Floating in the Latent Space

Dec 7
ByMikolaj Czerkawski, Marcin Kluczek, Jędrzej S. Bojanowski
8
2

Com o aumento contínuo dos volumes de dados de observação da Terra presentes nos arquivos de grandes programas como o Copernicus, há uma crescente necessidade de representações vetoriais eficientes dos dados brutos subjacentes. A abordagem de extrair representações de características de redes neurais profundas pré-treinadas é uma abordagem poderosa que pode fornecer abstrações semânticas dos dados de entrada. No entanto, a forma como isso é feito para arquivos de imagens contendo dados geoespaciais ainda não foi definida. Neste trabalho, é proposta uma extensão a um projeto comunitário existente, Major TOM, focado na provisão e padronização de conjuntos de dados prontos para IA, abertos e gratuitos para observação da Terra. Além disso, quatro conjuntos de dados de incorporação global e densa são disponibilizados abertamente e gratuitamente juntamente com a publicação deste manuscrito, resultando no conjunto de dados global aberto mais abrangente de incorporações visuais geoespaciais em termos da superfície terrestre coberta.

13

Gaussianas de MAtCha: Atlas de Gráficos para Geometria de Alta Qualidade e Fotorrealismo a Partir de Vistas Esparsas
MAtCha Gaussians: Atlas of Charts for High-Quality Geometry and Photorealism From Sparse Views

Dec 9
ByAntoine Guédon, Tomoki Ichikawa, Kohei Yamashita, Ko Nishino
8
2

Apresentamos um modelo de aparência inovador que realiza simultaneamente a recuperação explícita de malha de superfície 3D de alta qualidade e a síntese fotorealística de novas visualizações a partir de amostras de visualização esparsas. Nossa ideia chave é modelar a geometria da cena subjacente como um Atlas de Gráficos que renderizamos com surfels Gaussianos 2D (MAtCha Gaussians). O MAtCha destila detalhes de alta frequência da superfície da cena de um estimador de profundidade monocular pronto para uso e os aprimora por meio da renderização de surfels Gaussianos. Os surfels Gaussianos são anexados aos gráficos dinamicamente, satisfazendo o fotorealismo da renderização volumétrica neural e a geometria nítida de um modelo de malha, ou seja, dois objetivos aparentemente contraditórios em um único modelo. No cerne do MAtCha está um modelo de deformação neural inovador e uma perda de estrutura que preserva os detalhes finos da superfície destilados das profundidades monoculares aprendidas, ao mesmo tempo em que aborda suas ambiguidades fundamentais de escala. Os resultados da extensa validação experimental demonstram a qualidade de ponta da reconstrução de superfície e o fotorealismo do MAtCha em pé de igualdade com os principais concorrentes, mas com uma redução dramática no número de visualizações de entrada e no tempo computacional. Acreditamos que o MAtCha servirá como uma ferramenta fundamental para qualquer aplicação visual em visão, gráficos e robótica que exija geometria explícita além de fotorealismo. Nossa página do projeto é a seguinte: https://anttwo.github.io/matcha/

14

CARP: Aprendizagem de Política Visuomotora por meio de Predição Autoregressiva de Grossa a Fina
CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction

Dec 9
ByZhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang
7
2

Na aprendizagem de políticas visuomotoras robóticas, os modelos baseados em difusão alcançaram um sucesso significativo na melhoria da precisão da geração de trajetória de ação em comparação com os modelos autoregressivos tradicionais. No entanto, eles sofrem de ineficiência devido a múltiplas etapas de desnoise e flexibilidade limitada de restrições complexas. Neste artigo, apresentamos a Política AutoRegressiva Grossa-a-Fina (CARP), um novo paradigma para a aprendizagem de políticas visuomotoras que redefine o processo de geração de ação autoregressiva como uma abordagem de próxima escala grossa-a-fina. CARP desacopla a geração de ação em duas etapas: primeiro, um autoencoder de ação aprende representações multi-escala de toda a sequência de ação; em seguida, um transformador no estilo GPT refina a previsão da sequência através de um processo autoregressivo grosseiro-a-fino. Esta abordagem direta e intuitiva produz ações altamente precisas e suaves, igualando ou até ultrapassando o desempenho de políticas baseadas em difusão enquanto mantém eficiência em nível com políticas autoregressivas. Realizamos extensas avaliações em diversos cenários, incluindo cenários de tarefa única e multi-tarefa em benchmarks de simulação baseados em estado e imagem, bem como tarefas do mundo real. CARP alcança taxas de sucesso competitivas, com até 10% de melhoria, e oferece uma inferência 10 vezes mais rápida em comparação com as políticas de ponta, estabelecendo um paradigma de alto desempenho, eficiente e flexível para geração de ação em tarefas robóticas.

15

Marca d'água de texto robusta de vários bits com parafraseadores baseados em LLM.
Robust Multi-bit Text Watermark with LLM-based Paraphrasers

Dec 4
ByXiaojun Xu, Jinghan Jia, Yuanshun Yao, Yang Liu, Hang Li
6
2

Propomos uma marca d'água de texto multibit imperceptível incorporada por meio de parafraseamento com Modelos de Linguagem com Poucas Letras (LLMs). Ajustamos finamente um par de parafraseadores LLM projetados para se comportarem de maneira diferente, de modo que a diferença de parafraseamento refletida na semântica do texto possa ser identificada por um decodificador treinado. Para incorporar nossa marca d'água multibit, usamos dois parafraseadores alternadamente para codificar o código binário predefinido no nível da sentença. Em seguida, utilizamos um classificador de texto como decodificador para decodificar cada bit da marca d'água. Através de experimentos extensivos, demonstramos que nossas marcas d'água podem atingir mais de 99,99\% de AUC de detecção com parafraseadores de texto pequenos (1,1B), mantendo a informação semântica da sentença original. Mais importante ainda, nosso processo é robusto sob substituição de palavras e perturbações de parafraseamento de sentenças e generaliza bem para dados fora da distribuição. Também demonstramos a furtividade de nossa marca d'água com avaliação baseada em LLM. Disponibilizamos o código-fonte em: https://github.com/xiaojunxu/multi-bit-text-watermark.

16

Se não puder usá-los, recicle-os: Otimizando a Fusão em Escala para Mitigar Compromissos de Desempenho
If You Can't Use Them, Recycle Them: Optimizing Merging at Scale Mitigates Performance Tradeoffs

Dec 5
ByMuhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet Üstün, Tom Sherborne, Matthias Gallé
5
2

A fusão de modelos tem mostrado grande promessa na combinação de modelos especialistas, mas o benefício da fusão é incerto ao combinar modelos "generalistas" treinados em várias tarefas. Exploramos a fusão no contexto de modelos grandes (aprox. 100 bilhões de parâmetros), reciclando checkpoints que apresentam compensações entre diferentes tarefas. Tais checkpoints são frequentemente criados no processo de desenvolvimento de um modelo de fronteira, e muitos subótimos são geralmente descartados. Dado um conjunto de checkpoints de modelo obtidos de diferentes execuções de treinamento (por exemplo, diferentes estágios, objetivos, hiperparâmetros e misturas de dados), que naturalmente mostram compensações em diferentes capacidades linguísticas (por exemplo, seguir instruções versus geração de código), investigamos se a fusão pode reciclar tais modelos subótimos em um modelo Pareto-ótimo. Nosso algoritmo de otimização ajusta o peso de cada checkpoint em uma combinação linear, resultando em modelos Pareto-ótimos que superam tanto os modelos individuais quanto as bases de fusão. Análises adicionais mostram que boas fusões tendem a incluir quase todos os checkpoints com pesos não nulos, indicando que até mesmo checkpoints iniciais aparentemente ruins podem contribuir para boas fusões finais.

17

Turbo3D: Geração Ultra-rápida de Texto para 3D
Turbo3D: Ultra-fast Text-to-3D Generation

Dec 5
ByHanzhe Hu, Tianwei Yin, Fujun Luan, Yiwei Hu, Hao Tan, Zexiang Xu, Sai Bi, Shubham Tulsiani, Kai Zhang
4
2

Apresentamos o Turbo3D, um sistema de texto para 3D ultra-rápido capaz de gerar ativos de splatting gaussiano de alta qualidade em menos de um segundo. O Turbo3D emprega um gerador de difusão de 4 etapas e 4 visualizações rápidas e um reconstrutor gaussiano feed-forward eficiente, ambos operando no espaço latente. O gerador de 4 etapas e 4 visualizações é um modelo estudante destilado por meio de uma abordagem de Duplo-Professor inovadora, que incentiva o estudante a aprender consistência de visualização de um professor de múltiplas visualizações e realismo fotográfico de um professor de única visualização. Ao deslocar as entradas do reconstrutor gaussiano do espaço de pixel para o espaço latente, eliminamos o tempo extra de decodificação de imagem e reduzimos pela metade o comprimento da sequência do transformador para máxima eficiência. Nosso método demonstra resultados superiores na geração de 3D em comparação com baselines anteriores, operando em uma fração de seu tempo de execução.

Dec 9
Dec 10
Dec 11