HuggingFace Daily Papers

Papers Diários

Artigos de pesquisa em IA selecionados diariamente com traduções

Selecionar data

18 papers found

VESPO: Otimização Variacional de Políticas Suaves a Nível de Sequência para Treinamento Estável de LLM Fora da Política
VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Feb 11

ByGuobin Shen, Chenxiao Zhao, Xiang Cheng, Lei Huang, Xing Yu

158

A estabilidade do treinamento continua sendo um desafio central no aprendizado por reforço (RL) para modelos de linguagem grandes (LLMs). A obsolescência da política, o treinamento assíncrono e os descompassos entre os mecanismos de treinamento e inferência fazem com que a política de comportamento se desvie da política atual, arriscando um colapso do treinamento. A amostragem por importância fornece uma correção fundamentada para essa mudança de distribuição, mas sofre com alta variância; os remédios existentes, como o corte a nível de *token* e a normalização a nível de sequência, carecem de uma base teórica unificada. Propomos a Otimização de Política *Soft* a Nível de Sequência Variacional (VESPO). Ao incorporar a redução de variância numa formulação variacional sobre distribuições de proposta, o VESPO deriva um núcleo de reformulação de forma fechada que opera diretamente sobre os pesos de importância a nível de sequência, sem normalização de comprimento. Experimentos em benchmarks de raciocínio matemático mostram que o VESPO mantém o treinamento estável sob taxas de obsolescência de até 64x e execução totalmente assíncrona, e proporciona ganhos consistentes tanto em modelos densos como em modelos de Mistura de Especialistas. O código está disponível em https://github.com/FloyedShen/VESPO.

Seu Modelo de Raciocínio Sabe Implicitamente Quando Parar de Pensar?
Does Your Reasoning Model Implicitly Know When to Stop Thinking?

Feb 9

ByZixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuanda Wang, Zhixia Zhang, Hongyan Xie, Songshi Liang, Zehao Chen, Xuefeng Xiao, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang

Os recentes avanços nos grandes modelos de raciocínio (LRMs) têm melhorado significativamente suas capacidades em tarefas de raciocínio complexo por meio de Longas Cadeias de Pensamento (CoTs). No entanto, essa abordagem frequentemente resulta em substancial redundância, prejudicando a eficiência computacional e causando atrasos significativos em aplicações em tempo real. Estudos recentes mostram que cadeias de raciocínio mais longas estão frequentemente desconectadas da correção e podem até ser prejudiciais à precisão. Numa análise mais aprofundada deste fenômeno, descobrimos surpreendentemente e verificamos empiricamente que os LRMs sabem implicitamente o momento adequado para parar de pensar, embora esta capacidade seja obscurecida pelos paradigmas de amostragem atuais. Motivados por isso, introduzimos o SAGE (Raciocínio Eficiente Guiado por Autoconsciência), um novo paradigma de amostragem que liberta este potencial de raciocínio eficiente. Além disso, a integração do SAGE como amostragem mista no aprendizado por reforço baseado em grupo (SAGE-RL) permite que o SAGE-RL incorpore efetivamente os padrões de raciocínio eficiente descobertos pelo SAGE na inferência padrão pass@1, melhorando marcadamente tanto a precisão quanto a eficiência do raciocínio dos LRMs em vários benchmarks matemáticos desafiadores.

Realidade Gerada: Simulação de Mundos Centrada no Humano usando Geração de Vídeo Interativa com Controle Manual e de Câmera
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Feb 20

ByLinxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

A realidade estendida (XR) exige modelos generativos que respondam aos movimentos do mundo real rastreados dos usuários, porém os atuais modelos de vídeo-mundo aceitam apenas sinais de controle grosseiros, como texto ou entrada de teclado, limitando sua utilidade para interação incorporada. Introduzimos um modelo de vídeo-mundo centrado no humano que é condicionado tanto pela pose da cabeça rastreada quanto por poses das mãos a nível articular. Para este fim, avaliamos as estratégias existentes de condicionamento para transformadores de difusão e propomos um mecanismo eficaz para o controle tridimensional da cabeça e das mãos, permitindo interações hábeis mão-objeto. Treinamos um modelo professor de difusão de vídeo bidirecional usando esta estratégia e o destilamos em um sistema causal e interativo que gera ambientes virtuais egocêntricos. Avaliamos este sistema de realidade gerada com sujeitos humanos e demonstramos uma melhoria no desempenho de tarefas, bem como um nível significativamente maior de perceção de controlo sobre as ações realizadas em comparação com linhas de base relevantes.

Abarcando o Espaço da Analogia Visual com uma Base de Peso de LoRAs
Spanning the Visual Analogy Space with a Weight Basis of LoRAs

Feb 17

ByHila Manor, Rinon Gal, Haggai Maron, Tomer Michaeli, Gal Chechik

A aprendizagem por analogia visual permite a manipulação de imagens através de demonstração em vez de descrição textual, permitindo que os utilizadores especifiquem transformações complexas difíceis de articular em palavras. Dado um triplo {a, a', b}, o objetivo é gerar b' tal que a : a' :: b : b'. Métodos recentes adaptam modelos de texto para imagem a esta tarefa usando um único módulo de Adaptação de Baixa Classificação (LoRA), mas enfrentam uma limitação fundamental: tentar capturar o espaço diversificado de transformações visuais dentro de um módulo de adaptação fixo restringe as capacidades de generalização. Inspirados por trabalhos recentes que mostram que LoRAs em domínios restritos abrangem espaços semânticos significativos e interpoláveis, propomos o LoRWeB, uma nova abordagem que especializa o modelo para cada tarefa de analogia no momento da inferência através da composição dinâmica de primitivas de transformação aprendidas, informalmente, escolhendo um ponto num "espaço de LoRAs". Introduzimos dois componentes-chave: (1) uma base aprendível de módulos LoRA, para abranger o espaço de diferentes transformações visuais, e (2) um codificador leve que seleciona e pondera dinamicamente essas LoRAs de base com base no par de analogia de entrada. Avaliações abrangentes demonstram que a nossa abordagem atinge um desempenho state-of-the-art e melhora significativamente a generalização para transformações visuais não vistas. As nossas descobertas sugerem que as decomposições de base LoRA são uma direção promissora para a manipulação visual flexível. O código e os dados estão em https://research.nvidia.com/labs/par/lorweb.

Decodificação como Otimização no Simplex de Probabilidade: Dos Amostradores Top-K aos Top-P (Núcleo) e Best-of-K
Decoding as Optimisation on the Probability Simplex: From Top-K to Top-P (Nucleus) to Best-of-K Samplers

Feb 20

ByXiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou-Ammar

A decodificação situa-se entre um modelo de linguagem e tudo o que fazemos com ele, mas ainda é tratada como um exercício heurístico de ajuste de parâmetros. Argumentamos que a decodificação deve ser compreendida como uma camada de otimização fundamentada: em cada token, resolvemos um problema regularizado sobre o simplex de probabilidades que equilibra a pontuação do modelo com preferências e restrições estruturais. Este modelo único recupera a decodificação gulosa, a amostragem Softmax, Top-K, Top-P e a esparsidade no estilo Sparsemax como casos especiais, e explica a sua estrutura comum através de condições de otimalidade. Mais importante, a estrutura facilita a criação de novos decodificadores sem depender de conhecimento informal. Demonstramos isto projetando o Best-of-K (BoK), um objetivo de cobertura ancorado na divergência KL (Kullback-Leibler) destinado a pipelines de múltiplas amostras (autoconsistência, reclassificação, seleção por verificador). O BoK tem como alvo a probabilidade de cobrir boas alternativas dentro de um orçamento fixo de K amostras e melhora o desempenho empírico. Mostramos que tais amostras podem melhorar a precisão em, por exemplo, +18,6% para o Qwen2.5-Math-7B no conjunto MATH500 em temperaturas de amostragem elevadas.

EgoPush: Aprendizado de Rearranjo Multiobjeto Egocêntrico de Ponta a Ponta para Robôs Móveis
EgoPush: Learning End-to-End Egocentric Multi-Object Rearrangement for Mobile Robots

Feb 20

ByBoyuan An, Zhexiong Wang, Yipeng Wang, Jiaqi Li, Sihang Li, Jing Zhang, Chen Feng

Os seres humanos conseguem reorganizar objetos em ambientes desordenados usando percepção egocêntrica, navegando por oclusões sem coordenadas globais. Inspirados por essa capacidade, estudamos o rearranjo não preênsil de múltiplos objetos em horizontes temporais longos para robôs móveis, utilizando uma única câmera egocêntrica. Apresentamos o EgoPush, uma estrutura de aprendizagem por políticas que permite o rearranjo egocêntrico e orientado por percepção sem depender da estimativa explícita do estado global, que frequentemente falha em cenas dinâmicas. O EgoPush concebe um espaço latente centrado no objeto para codificar relações espaciais relativas entre os objetos, em vez de poses absolutas. Este projeto permite que um professor de aprendizagem por reforço (RL) privilegiado aprenda conjuntamente estados latentes e ações móveis a partir de pontos-chave esparsos, os quais são depois destilados numa política estudante puramente visual. Para reduzir o hiato de supervisão entre o professor onisciente e o estudante parcialmente observado, restringimos as observações do professor a pistas visualmente acessíveis. Isto induz comportamentos de percepção ativa que são recuperáveis a partir do ponto de vista do estudante. Para abordar a atribuição de crédito em horizontes longos, decompomos o rearranjo em subproblemas a nível de fase, utilizando recompensas de conclusão locais à fase e temporalmente decaídas. Extensas experiências de simulação demonstram que o EgoPush supera significativamente as linhas de base de RL de ponta a ponta na taxa de sucesso, com estudos de ablação a validar cada escolha de projeto. Demonstramos ainda a transferência *zero-shot* do simulador para o mundo real numa plataforma móvel. O código e os vídeos estão disponíveis em https://ai4ce.github.io/EgoPush/.

SARAH: Agentes Humanos Espacialmente Conscientes em Tempo Real
SARAH: Spatially Aware Real-time Agentic Humans

Feb 20

ByEvonne Ng, Siwei Zhang, Zhang Chen, Michael Zollhoefer, Alexander Richard

À medida que os agentes corporificados se tornam centrais para aplicações de realidade virtual, telepresença e humanos digitais, seus movimentos devem ir além de gestos alinhados à fala: os agentes devem virar-se em direção aos usuários, responder aos seus movimentos e manter um olhar natural. Os métodos atuais carecem dessa consciência espacial. Nós preenchemos essa lacuna com o primeiro método totalmente causal e em tempo real para movimento conversacional espacialmente consciente, implantável em um headset de VR em streaming. Dada a posição do usuário e o áudio diádico, nossa abordagem produz movimento corporal completo que alinha gestos com a fala enquanto orienta o agente de acordo com o usuário. Nossa arquitetura combina um VAE baseado em transformer causal com tokens latentes intercalados para inferência em streaming e um modelo de correspondência de fluxo condicionado na trajetória do usuário e no áudio. Para acomodar diferentes preferências de olhar, introduzimos um mecanismo de pontuação de gaze com orientação livre de classificador para desacoplar aprendizado de controle: o modelo captura o alinhamento espacial natural dos dados, enquanto os usuários podem ajustar a intensidade do contato visual no momento da inferência. No conjunto de dados Embody 3D, nosso método alcança qualidade de movimento state-of-the-art a mais de 300 FPS — 3x mais rápido que baselines não-causais — enquanto captura as dinâmicas espaciais sutis da conversa natural. Validamos nossa abordagem em um sistema de VR ao vivo, trazendo agentes conversacionais espacialmente conscientes para implantação em tempo real. Para detalhes, consulte https://evonneng.github.io/sarah/.

Avey-B
Avey-B

Feb 17

ByDevang Acharya, Mohammad Hammoud

Codificadores bidirecionais pré-treinados compactos continuam sendo a espinha dorsal do PLN industrial sob orçamentos restritos de computação e memória. Sua eficácia decorre da capacidade da autoatenção de fornecer contextualização bidirecional de alta qualidade com paralelismo em nível de sequência, como popularizado pelas arquiteturas no estilo BERT. Recentemente, o Avey foi introduzido como uma alternativa autoregressiva e livre de atenção que naturalmente admite uma adaptação apenas para codificador. Neste artigo, reformulamos o Avey para o paradigma apenas de codificador e propomos várias inovações em sua arquitetura, incluindo parametrizações estáticas e dinâmicas desacopladas, normalização orientada à estabilidade e compressão neural. Os resultados mostram que esta arquitetura reformulada se compara favoravelmente a quatro codificadores baseados em Transformer amplamente utilizados, superando-os consistentemente em benchmarks padrão de classificação de tokens e recuperação de informação, enquanto escala de forma mais eficiente para contextos longos.

DeepVision-103K: Um Conjunto de Dados Matemático Visualmente Diverso, de Ampla Cobertura e Verificável para Raciocínio Multimodal
DeepVision-103K: A Visually Diverse, Broad-Coverage, and Verifiable Mathematical Dataset for Multimodal Reasoning

Feb 18

ByHaoxiang Sun, Lizhen Xu, Bing Zhao, Wotao Yin, Wei Wang, Boyu Yang, Rui Wang, Hu Wei

O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) demonstrou ser eficaz na melhoria das capacidades de reflexão visual e raciocínio dos Modelos Multimodais de Grande Escala (LMMs). No entanto, os conjuntos de dados existentes são predominantemente derivados da construção manual em pequena escala ou da recombinação de recursos anteriores, o que limita a diversidade e a abrangência dos dados, restringindo assim ganhos adicionais no desempenho do modelo. Para tanto, introduzimos o DeepVision-103K, um conjunto de dados abrangente para treinamento RLVR que abrange diversos tópicos matemáticos do ensino fundamental e médio (K12), extensos pontos de conhecimento e elementos visuais ricos. Os modelos treinados no DeepVision alcançam um desempenho sólido em benchmarks matemáticos multimodais e generalizam eficazmente para tarefas gerais de raciocínio multimodal. Uma análise mais aprofundada revela capacidades aprimoradas de percepção visual, reflexão e raciocínio nos modelos treinados, validando a eficácia do DeepVision para o avanço do raciocínio multimodal. Dados: https://huggingface.co/datasets/skylenage/DeepVision-103K.

VidEoMT: Sua ViT é Secretamente Também um Modelo de Segmentação de Vídeo
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Feb 19

ByNarges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

Os modelos existentes de segmentação de vídeo online normalmente combinam um segmentador por quadro com módulos de rastreamento especializados e complexos. Embora eficazes, esses módulos introduzem uma complexidade arquitetônica e uma sobrecarga computacional significativas. Estudos recentes sugerem que codificadores Vision Transformer (ViT) simples, quando dimensionados com capacidade suficiente e pré-treinamento em larga escala, podem realizar segmentação precisa de imagens sem a necessidade de módulos especializados. Motivados por essa observação, propomos o Video Encoder-only Mask Transformer (VidEoMT), um modelo simples de segmentação de vídeo baseado apenas em codificador que elimina a necessidade de módulos de rastreamento dedicados. Para permitir a modelagem temporal em um ViT apenas com codificador, o VidEoMT introduz um mecanismo leve de propagação de consultas (queries) que transporta informações entre quadros, reutilizando as consultas do quadro anterior. Para equilibrar isso com a adaptabilidade a novos conteúdos, ele emprega uma estratégia de fusão de consultas que combina as consultas propagadas com um conjunto de consultas aprendidas temporalmente agnósticas. Como resultado, o VidEoMT obtém os benefícios de um rastreador sem complexidade adicional, alcançando precisão competitiva enquanto é 5x a 10x mais rápido, operando a até 160 FPS com uma backbone ViT-L. Código: https://www.tue-mps.org/videomt/

4RC: Reconstrução 4D via Consulta Condicional a Qualquer Momento e em Qualquer Lugar
4RC: 4D Reconstruction via Conditional Querying Anytime and Anywhere

Feb 10

ByYihang Luo, Shangchen Zhou, Yushi Lan, Xingang Pan, Chen Change Loy

Apresentamos o 4RC, uma estrutura unificada *feed-forward* para reconstrução 4D a partir de vídeos monoculares. Diferente das abordagens existentes, que normalmente desacoplam o movimento da geometria ou produzem atributos 4D limitados, como trajetórias esparsas ou fluxo de cena entre dois quadros, o 4RC aprende uma representação 4D holística que captura conjuntamente a geometria densa da cena e a dinâmica do movimento. Em seu núcleo, o 4RC introduz um novo paradigma de *encode-once, query-anywhere and anytime*: um *backbone* de transformer codifica o vídeo inteiro em um espaço latente espaço-temporal compacto, a partir do qual um decodificador condicional pode consultar de forma eficiente a geometria 3D e o movimento para qualquer quadro de consulta em qualquer *timestamp* de destino. Para facilitar o aprendizado, representamos os atributos 4D por visão em uma forma minimamente fatorada, decompondo-os em geometria base e movimento relativo dependente do tempo. Experimentos extensivos demonstram que o 4RC supera métodos anteriores e concorrentes em uma ampla gama de tarefas de reconstrução 4D.

Aprendizado de Políticas Lineares Suaves Variantes no Tempo com uma Penalidade no Jacobiano da Ação
Learning Smooth Time-Varying Linear Policies with an Action Jacobian Penalty

Feb 20

ByZhaoming Xie, Kevin Karol, Jessica Hodgins

A aprendizagem por reforço fornece uma estrutura para aprender políticas de controlo que podem reproduzir movimentos diversos para personagens simuladas. No entanto, tais políticas frequentemente exploram sinais de alta frequência não naturais que são inatingíveis por humanos ou robôs físicos, tornando-as representações fracas de comportamentos do mundo real. Trabalhos existentes abordam esta questão adicionando um termo de recompensa que penaliza uma grande mudança nas ações ao longo do tempo. Este termo frequentemente requer esforços substanciais de afinação. Propomos a utilização da penalidade do Jacobiano da ação, que penaliza mudanças na ação em relação às mudanças no estado simulado diretamente através de diferenciação automática. Isto elimina efetivamente sinais de controlo de alta frequência irreais sem afinação específica da tarefa. Embora eficaz, a penalidade do Jacobiano da ação introduz uma sobrecarga computacional significativa quando utilizada com arquiteturas tradicionais de redes neuronais totalmente conectadas. Para mitigar isto, introduzimos uma nova arquitetura chamada Linear Policy Net (LPN) que reduz significativamente o custo computacional para calcular a penalidade do Jacobiano da ação durante o treino. Além disso, uma LPN não requer afinação de parâmetros, exibe uma convergência de aprendizagem mais rápida em comparação com métodos de base e pode ser consultada mais eficientemente durante o tempo de inferência em comparação com uma rede neuronal totalmente conectada. Demonstramos que uma Linear Policy Net, combinada com a penalidade do Jacobiano da ação, é capaz de aprender políticas que geram sinais suaves enquanto resolve uma série de tarefas de imitação de movimento com características diferentes, incluindo movimentos dinâmicos como um mortal para trás e várias habilidades de parkour desafiadoras. Por fim, aplicamos esta abordagem para criar políticas para movimentos dinâmicos num robô quadrúpede físico equipado com um braço.

Poda Consciente do Afundamento para Modelos de Linguagem de Difusão
Sink-Aware Pruning for Diffusion Language Models

Feb 19

ByAidar Myrzakhan, Tianyi Li, Bowei Guo, Shengkun Tang, Zhiqiang Shen

Os Modelos de Linguagem de Difusão (DLMs) incorrem em alto custo de inferência devido à desnudação iterativa, motivando a poda eficiente. As heurísticas de poda existentes, herdadas em grande parte dos LLMs autoregressivos (AR), normalmente preservam os *tokens* de *attention sinks* (sumidouros de atenção), pois os *sinks* AR servem como âncoras globais estáveis. Demonstramos que esta premissa não se mantém para os DLMs: a posição do *attention sink* exibe uma variância substancialmente maior ao longo de toda a trajetória de geração (medida pela forma como as posições dominantes dos *sinks* mudam entre os *timesteps*), indicando que os *sinks* são frequentemente transitórios e estruturalmente menos essenciais do que nos modelos AR. Com base nesta observação, propomos a **Poda Consciente do *Sink***, que identifica e poda automaticamente *sinks* instáveis em DLMs (estudos anteriores geralmente mantêm *sinks* para LLMs AR). Sem retreino, o nosso método alcança um melhor equilíbrio entre qualidade e eficiência e supera fortes *baselines* de poda anteriores sob computação equivalente. O nosso código está disponível em https://github.com/VILA-Lab/Sink-Aware-Pruning.

Treinamento Seletivo para Grandes Modelos de Linguagem Visual por meio de Ganho de Informação Visual
Selective Training for Large Vision Language Models via Visual Information Gain

Feb 19

BySeulbi Lee, Sangheum Hwang

Os Grandes Modelos de Visão e Linguagem (LVLMs) alcançaram progressos notáveis, mas frequentemente sofrem de viés linguístico, produzindo respostas sem depender de evidências visuais. Embora trabalhos anteriores tentem mitigar esse problema por meio de estratégias de decodificação, modificações arquiteturais ou dados de instrução selecionados, eles geralmente carecem de uma medida quantitativa de quanto amostras ou tokens individuais de treinamento realmente se beneficiam da imagem. Neste trabalho, introduzimos o Ganho de Informação Visual (VIG), uma métrica baseada em perplexidade que mede a redução da incerteza de predição fornecida pela entrada visual. O VIG permite uma análise refinada tanto em nível de amostra quanto de token, destacando efetivamente elementos visualmente fundamentados, como cores, relações espaciais e atributos. Aproveitando isso, propomos um esquema de treinamento seletivo guiado por VIG que prioriza amostras e tokens com alto VIG. Essa abordagem melhora a fundamentação visual e mitiga o viés linguístico, alcançando desempenho superior com supervisão significativamente reduzida ao focar exclusivamente em amostras e tokens visualmente informativos.

ReIn: Recuperação de Erros Conversacionais com Raciocínio Inicial
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür

Agentes conversacionais alimentados por modelos de linguagem de grande escala (LLMs) com integração de ferramentas alcançam alto desempenho em conjuntos de dados de diálogo orientados a tarefas fixas, mas permanecem vulneráveis a erros não antecipados induzidos pelo utilizador. Em vez de se concentrar na prevenção de erros, este trabalho foca-se na recuperação de erros, o que exige o diagnóstico preciso de contextos de diálogo erróneos e a execução de planos de recuperação adequados. Sob restrições realistas que impedem o *fine-tuning* do modelo ou a modificação de *prompts* devido a requisitos significativos de custo e tempo, exploramos se os agentes podem recuperar de interações contextualmente falhas e como o seu comportamento pode ser adaptado sem alterar os parâmetros do modelo e os *prompts*. Para tal, propomos o *Reasoning Inception* (ReIn), um método de intervenção em tempo de teste que insere um raciocínio inicial no processo de tomada de decisão do agente. Especificamente, um módulo de iniciação externo identifica erros predefinidos no contexto do diálogo e gera planos de recuperação, que são subsequentemente integrados no processo de raciocínio interno do agente para orientar ações corretivas, sem modificar os seus parâmetros ou *prompts* de sistema. Avaliamos o ReIn simulando sistematicamente cenários de falha conversacional que impedem diretamente a conclusão bem-sucedida dos objetivos do utilizador: pedidos ambíguos e não suportados do utilizador. Através de diversas combinações de modelos de agente e módulos de iniciação, o ReIn melhora substancialmente o sucesso da tarefa e generaliza para tipos de erro não observados. Além disso, supera consistentemente abordagens de modificação explícita de *prompts*, salientando a sua utilidade como um método eficiente e em tempo real. Uma análise aprofundada do seu mecanismo operacional, particularmente em relação à hierarquia de instruções, indica que a definição conjunta de ferramentas de recuperação com o ReIn pode servir como uma estratégia segura e eficaz para melhorar a resiliência dos agentes conversacionais sem modificar os modelos de base ou os *prompts* de sistema.

Adam Aprimora Muon: Estimação de Momento Adaptativo com Momento Ortogonalizado
Adam Improves Muon: Adaptive Moment Estimation with Orthogonalized Momentum

Feb 19

ByMinxin Zhang, Yuxuan Liu, Hayden Scheaffer

A otimização estocástica eficiente normalmente integra uma direção de atualização que apresenta bom desempenho no regime determinístico com um mecanismo de adaptação a perturbações estocásticas. Enquanto o Adam utiliza estimativas adaptativas de momento para promover estabilidade, o Muon aproveita a estrutura matricial das camadas de pesos através do momento ortogonalizado, demonstrando desempenho superior no treinamento de modelos de linguagem grandes. Propomos um novo otimizador e uma extensão diagonal, NAMO e NAMO-D, fornecendo a primeira integração fundamentada do momento ortogonalizado com a adaptação ao ruído do tipo Adam baseada em norma. O NAMO dimensiona o momento ortogonalizado usando um único tamanho de passo adaptativo, preservando a ortogonalidade enquanto supera o Muon com custo adicional insignificante. O NAMO-D, por sua vez, multiplica à direita o momento ortogonalizado por uma matriz diagonal com entradas limitadas. Este projeto permite a adaptação ao ruído por neurônio e alinha-se com a estrutura hessiana comum quase bloco-diagonal. Sob premissas padrão, estabelecemos taxas de convergência ótimas para ambos os algoritmos no cenário determinístico e mostramos que, no cenário estocástico, suas garantias de convergência se adaptam ao nível de ruído dos gradientes estocásticos. Experimentos com pré-treinamento de modelos GPT-2 demonstram um desempenho melhorado tanto do NAMO quanto do NAMO-D em comparação com as baselines AdamW e Muon, com o NAMO-D alcançando ganhos adicionais sobre o NAMO através de um hiperparâmetro de limitação adicional que equilibra os objetivos concorrentes de manter uma direção de atualização bem condicionada e alavancar a adaptação ao ruído em granularidade fina.

Rubricas como Superfície de Ataque: Desvio de Preferência Dissimulado em Juízes de LLM
Rubrics as an Attack Surface: Stealthy Preference Drift in LLM Judges

Feb 14

ByRuomeng Ding, Yifei Pang, He Sun, Yizhong Wang, Zhiwei Steven Wu, Zhun Deng

Os pipelines de avaliação e alinhamento para modelos de linguagem de grande porte dependem cada vez mais de juízes baseados em LLM, cujo comportamento é orientado por rubricas em linguagem natural e validado em benchmarks. Identificamos uma vulnerabilidade previamente sub-reconhecida neste fluxo de trabalho, que denominamos Desvio de Preferência Induzido por Rubrica (RIPD). Mesmo quando as edições de rubrica passam na validação do benchmark, elas ainda podem produzir mudanças sistemáticas e direcionais nas preferências de um juízo em domínios de destino. Como as rubricas servem como uma interface de decisão de alto nível, tal desvio pode emergir de edições aparentemente naturais e que preservam critérios, permanecendo difícil de detectar por meio de métricas agregadas de benchmark ou verificações pontuais limitadas. Mostramos ainda que essa vulnerabilidade pode ser explorada por meio de ataques de preferência baseados em rubrica, nos quais edições de rubrica conformes com o benchmark direcionam os julgamentos para longe de uma referência humana fixa ou confiável em domínios de destino, induzindo sistematicamente o RIPD e reduzindo a precisão no domínio de destino em até 9,5% (utilidade) e 27,9% (inocuidade). Quando esses julgamentos são usados para gerar rótulos de preferência para o pós-treinamento downstream, o viés induzido propaga-se pelos pipelines de alinhamento e é internalizado nas políticas treinadas. Isso leva a um desvio persistente e sistemático no comportamento do modelo. No geral, nossas descobertas destacam as rubricas de avaliação como uma interface de controle sensível e manipulável, revelando um risco de alinhamento em nível de sistema que vai além da confiabilidade do avaliador. O código está disponível em: https://github.com/ZDCSlab/Rubrics-as-an-Attack-Surface. Aviso: Certas seções podem conter conteúdo potencialmente prejudicial que pode não ser apropriado para todos os leitores.

A Quem Consultar sobre o Quê: Eliciação Adaptativa de Grupos através de Interações Multi-turno com LLMs
Whom to Query for What: Adaptive Group Elicitation via Multi-Turn LLM Interactions

Feb 15

ByRuomeng Ding, Tianwei Gao, Thomas P. Zollo, Eitan Bachmat, Richard Zemel, Zhun Deng

A obtenção de informações para reduzir a incerteza sobre propriedades latentes a nível de grupo a partir de inquéritos e outras avaliações coletivas exige a alocação de um esforço de questionamento limitado sob custos reais e dados em falta. Embora os modelos de linguagem de grande escala (LLMs) permitam interações adaptativas e multi-turno em linguagem natural, a maioria dos métodos de elicitação existentes otimiza o que perguntar com um conjunto fixo de inquiridos, e não adapta a seleção de inquiridos nem aproveita a estrutura da população quando as respostas são parciais ou incompletas. Para colmatar esta lacuna, estudamos a elicitação adaptativa de grupo, um cenário de múltiplas rondas em que um agente seleciona de forma adaptativa tanto as perguntas como os inquiridos sob orçamentos explícitos de consulta e participação. Propomos um quadro teoricamente fundamentado que combina (i) um objetivo de ganho esperado de informação baseado em LLM para pontuar perguntas candidatas com (ii) uma propagação de rede neural de grafos heterogéneos que agrega respostas observadas e atributos dos participantes para imputar respostas em falta e orientar a seleção de inquiridos por ronda. Este procedimento de ciclo fechado consulta um subconjunto pequeno e informativo de indivíduos, inferindo simultaneamente respostas a nível populacional através de similaridade estruturada. Em três conjuntos de dados de opinião do mundo real, o nosso método melhora consistentemente a previsão de respostas a nível populacional sob orçamentos restritos, incluindo um ganho relativo >12% no CES com um orçamento de 10% de inquiridos.

ReIn: Recuperação de Erros Conversacionais com Raciocínio Inicial
ReIn: Conversational Error Recovery with Reasoning Inception

Feb 19

ByTakyoung Kim, Jinseok Nam, Chandrayee Basu, Xing Fan, Chengyuan Ma, Heng Ji, Gokhan Tur, Dilek Hakkani-Tür