Artigos de pesquisa em IA selecionados diariamente com traduções
O Modelo de Raciocínio Hierárquico (HRM) é uma abordagem inovadora que utiliza duas pequenas redes neurais recursivas operando em diferentes frequências. Este método, inspirado biologicamente, supera os Modelos de Linguagem de Grande Escala (LLMs) em tarefas complexas como Sudoku, Labirinto e ARC-AGI, mesmo quando treinado com modelos pequenos (27 milhões de parâmetros) e com poucos dados (cerca de 1000 exemplos). O HRM mostra grande potencial para resolver problemas complexos com redes pequenas, mas ainda não é totalmente compreendido e pode não ser o ideal. Propomos o Modelo Recursivo Minúsculo (TRM), uma abordagem de raciocínio recursivo muito mais simples que alcança uma generalização significativamente maior do que o HRM, utilizando uma única rede minúscula com apenas 2 camadas. Com apenas 7 milhões de parâmetros, o TRM obtém 45% de precisão no teste ARC-AGI-1 e 8% no ARC-AGI-2, superando a maioria dos LLMs (por exemplo, Deepseek R1, o3-mini, Gemini 2.5 Pro) com menos de 0,01% dos parâmetros.
O aprendizado por reforço orientado a resultados avançou o raciocínio em modelos de linguagem de grande escala (LLMs), mas as abordagens predominantes que utilizam ferramentas treinam uma única política monolítica que intercala pensamentos e chamadas de ferramentas sob contexto completo; isso escala mal com horizontes longos e ferramentas diversas e generaliza fracamente para novos cenários. Sistemas agentes oferecem uma alternativa promissora ao decompor o trabalho em módulos especializados, mas a maioria permanece sem treinamento ou depende de treinamento offline desacoplado da dinâmica ao vivo da interação multi-turn. Introduzimos o AgentFlow, um framework agentic treinável em fluxo que coordena quatro módulos (planejador, executor, verificador, gerador) por meio de uma memória em evolução e otimiza diretamente seu planejador dentro do loop multi-turn. Para treinar em política em ambientes ao vivo, propomos o Flow-based Group Refined Policy Optimization (Flow-GRPO), que aborda a atribuição de crédito de longo horizonte e recompensa esparsa ao converter a otimização multi-turn em uma sequência de atualizações de política de turno único tratáveis. Ele transmite um único resultado verificável em nível de trajetória para cada turno para alinhar as decisões locais do planejador com o sucesso global e estabiliza o aprendizado com vantagens normalizadas por grupo. Em dez benchmarks, o AgentFlow com um backbone de 7B supera as principais linhas de base com ganhos médios de precisão de 14,9% em busca, 14,0% em tarefas agentes, 14,5% em matemáticas e 4,1% em científicas, superando até mesmo modelos proprietários maiores como o GPT-4o. Análises adicionais confirmam os benefícios da otimização em fluxo, mostrando planejamento aprimorado, confiabilidade aumentada na chamada de ferramentas e escalabilidade positiva com o tamanho do modelo e turnos de raciocínio.
O raciocínio integrado a ferramentas emergiu como um foco-chave para habilitar aplicações agentivas. Entre essas, os Agentes DeepResearch ganharam atenção significativa por seu forte desempenho em tarefas complexas e de busca de informação de natureza aberta. Apresentamos o Fathom-DeepResearch, um sistema agentivo composto por dois modelos especializados. O primeiro é o Fathom-Search-4B, um modelo DeepSearch treinado a partir do Qwen3-4B e otimizado para investigação baseada em evidências por meio de buscas na web em tempo real e consultas direcionadas a páginas da web. Seu treinamento combina três avanços: (i) DUETQA, um conjunto de dados de 5K amostras gerado via autojogo multiagente que impõe dependência estrita de busca na web e fundamentação em fontes heterogêneas; (ii) RAPO, uma extensão de custo zero do GRPO que estabiliza o Aprendizado por Reforço multi-turno com Recompensas Verificáveis por meio de poda curricular, escalonamento de vantagem consciente de recompensa e buffers de repetição por prompt; e (iii) uma recompensa escalonável no nível de etapa que classifica cada chamada de ferramenta por comportamento cognitivo e utilidade marginal, permitindo controle explícito sobre a amplitude, profundidade e horizonte da trajetória de busca. Essas melhorias permitem a extensão confiável de chamadas de ferramentas além de 20 chamadas quando justificado. O segundo é o Fathom-Synthesizer-4B, treinado a partir do Qwen3-4B, que converte rastreios multi-turno do DeepSearch em Relatórios DeepResearch estruturados e densos em citações para síntese abrangente. Avaliado em benchmarks de DeepSearch (SimpleQA, FRAMES, WebWalker, Seal0, MuSiQue) e DeepResearch-Bench, o sistema alcança desempenho de ponta na categoria de pesos abertos, demonstrando forte generalização para diversas tarefas de raciocínio, incluindo HLE, AIME-25, GPQA-Diamond e MedQA.
Os Modelos de Recompensa de Processo (PRMs) surgiram recentemente como uma estrutura poderosa para aprimorar as capacidades de raciocínio de grandes modelos de raciocínio (LRMs), especialmente no contexto de escalonamento em tempo de teste (TTS). No entanto, seu potencial para supervisionar LRMs em domínios de raciocínio tabular permanece subexplorado. Através de análises empíricas detalhadas, identificamos que os PRMs existentes, embora amplamente adotados para supervisionar etapas de raciocínio baseadas apenas em texto, enfrentam dificuldades com operações específicas de tabelas, como recuperação de sub-tabelas e interação com esquemas, levando a gargalos críticos de desempenho. Para abordar essa limitação, propomos o TaTToo, uma nova estrutura PRM baseada em tabelas que (i) raciocina explicitamente sobre etapas de raciocínio tabular e (ii) integra verificação baseada em ferramentas para fornecer supervisão de recompensa precisa. Concretamente, primeiro projetamos um pipeline escalável de curadoria de dados que constrói mais de 60 mil anotações de alta qualidade em nível de etapa, integrando racionais de verificação de tabelas com execuções baseadas em ferramentas. Com base nos dados coletados, treinamos o TaTToo com um paradigma de duas etapas: ajuste fino supervisionado de partida a frio para capturar padrões de raciocínio com uso de ferramentas, seguido por aprendizado por reforço com modelagem de recompensa baseada em ferramentas para alinhar nosso modelo com a verificação baseada em tabelas. Fornecemos uma avaliação abrangente da melhoria de política induzida pelo nosso PRM recém-projetado. Em 5 benchmarks desafiadores de raciocínio tabular, cobrindo raciocínio numérico, verificação de fatos e análise de dados, o TaTToo melhora os LRMs de política downstream em 30,9% na inferência, supera fortes baselines de PRM, como o Qwen-2.5-Math-PRM-72B, com apenas 8 bilhões de parâmetros, e demonstra forte generalização em diversas estratégias de TTS.
Modelos de linguagem autoregressivos (AR) de grande escala (LLMs) têm alcançado desempenho notável em uma ampla gama de tarefas de processamento de linguagem natural, mas sua decodificação sequencial inerente limita a eficiência da inferência. Neste trabalho, propomos o Fast-dLLM v2, um modelo de linguagem de difusão em blocos (dLLM) cuidadosamente projetado que adapta eficientemente modelos AR pré-treinados em dLLMs para geração paralela de texto, exigindo apenas aproximadamente 1 bilhão de tokens de ajuste fino. Isso representa uma redução de 500x nos dados de treinamento em comparação com LLMs de difusão com atenção completa, como o Dream (580 bilhões de tokens), enquanto preserva o desempenho do modelo original. Nossa abordagem introduz uma nova receita de treinamento que combina um mecanismo de difusão em blocos com uma máscara de atenção complementar, permitindo a modelagem bidirecional de contexto em blocos sem sacrificar os objetivos de treinamento AR. Para acelerar ainda mais a decodificação, projetamos um mecanismo de cache hierárquico: um cache em nível de bloco que armazena representações de contexto histórico entre blocos e um cache em sub-blocos que permite a geração paralela eficiente dentro de blocos parcialmente decodificados. Juntamente com nosso pipeline de decodificação paralela, o Fast-dLLM v2 alcança uma aceleração de até 2,5x em relação à decodificação AR padrão, sem comprometer a qualidade da geração. Experimentos extensos em diversos benchmarks demonstram que o Fast-dLLM v2 iguala ou supera as linhas de base AR em precisão, ao mesmo tempo em que oferece eficiência de ponta entre os dLLMs - marcando um passo significativo em direção à implantação prática de LLMs rápidos e precisos. O código e o modelo serão disponibilizados publicamente.
Modelos de linguagem de difusão prometem capacidades de contexto bidirecional e preenchimento que codificadores autoregressivos não possuem, porém sistemas práticos ainda permanecem pesados. Apresentamos o CoDA, um codificador de difusão de 1,7 bilhão de parâmetros treinado em TPU com um pipeline de treinamento totalmente de código aberto. O CoDA combina pré-treinamento de difusão em larga escala com treinamento intermediário centrado em código e ajuste por instrução, permitindo amostragem guiada por confiança que mantém a latência de inferência competitiva. No Humaneval, MBPP e EvalPlus, o CoDA-1.7B-Instruct iguala ou supera modelos de difusão com até 7 bilhões de parâmetros. Nossa versão inclui checkpoints do modelo, ferramentas de avaliação e pipelines de treinamento em TPU para acelerar a pesquisa em assistentes de codificação baseados em difusão leves.
Modelos não autoregressivos (NAR) baseados em difusão e fluxo têm demonstrado grande potencial na modelagem de linguagem em larga escala, porém, seu potencial para reconhecimento automático de fala (ASR) permanece amplamente inexplorado. Propomos o Drax, uma estrutura de correspondência de fluxo discreto para ASR que permite decodificação paralela eficiente. Para melhor alinhar o treinamento com a inferência, construímos um caminho de probabilidade condicionado por áudio que guia o modelo por trajetórias que se assemelham a erros intermediários prováveis durante a inferência, em vez de transições diretas de ruído aleatório para o alvo. Nossa análise teórica vincula a lacuna de generalização a divergências entre as ocupações de treinamento e inferência, controladas por erros de velocidade cumulativos, motivando assim nossa escolha de design. A avaliação empírica demonstra que nossa abordagem alcança precisão de reconhecimento comparável aos modelos de fala state-of-the-art, ao mesmo tempo que oferece melhores compensações entre precisão e eficiência, destacando a correspondência de fluxo discreto como uma direção promissora para o avanço do ASR NAR.
Modelos de linguagem de grande escala (LLMs) têm demonstrado desempenho notável em tarefas de texto para SQL de turno único, mas aplicações de banco de dados do mundo real predominantemente exigem interações multi-turno para lidar com consultas ambíguas, erros de execução e requisitos de usuário em evolução. Os benchmarks multi-turno existentes ficam aquém ao tratar históricos de conversa como contexto estático ou limitar a avaliação a operações somente leitura, falhando em refletir os desafios de assistentes de banco de dados de nível de produção. Introduzimos o BIRD-INTERACT, um benchmark que restaura esse realismo através de: (1) um ambiente de interação abrangente que acopla cada banco de dados a uma base de conhecimento hierárquica, arquivos de metadados e um simulador de usuário orientado por funções, permitindo que os modelos solicitem esclarecimentos, recuperem conhecimento e se recuperem de erros sem supervisão humana; (2) duas configurações de avaliação consistindo em um protocolo conversacional pré-definido (c-Interact) e uma configuração agêntica de final aberto (a-Interact) onde os modelos decidem autonomamente quando consultar o simulador de usuário ou explorar o ambiente; (3) um conjunto de tarefas desafiadoras cobrindo todo o espectro CRUD para casos de uso de inteligência de negócios e operacionais, protegido por casos de teste executáveis. Cada tarefa apresenta sub-tarefas ambíguas e de acompanhamento que exigem interação dinâmica. O conjunto compreende o BIRD-INTERACT-FULL (600 tarefas, até 11.796 interações) para avaliação abrangente de desempenho, e o BIRD-INTERACT-LITE (300 tarefas com bancos de dados simplificados) para análise detalhada de comportamento e desenvolvimento rápido de métodos. Nossos resultados empíricos destacam a dificuldade do BIRD-INTERACT: o GPT-5 completa apenas 8,67% das tarefas no c-Interact e 17,00% no a-Interact. A análise via enxerto de memória e Escalonamento de Teste de Interação valida a importância da interação eficaz para tarefas complexas e dinâmicas de texto para SQL.
Modelos de raciocínio aprimoram o desempenho ao abordar problemas de maneira passo a passo, decompondo-os em subproblemas e explorando longas cadeias de pensamento antes de produzir uma resposta. No entanto, aplicar raciocínio estendido a cada etapa introduz uma redundância significativa, pois os subproblemas variam amplamente em dificuldade e complexidade: um pequeno número de etapas cruciais é genuinamente desafiador e decisivo para a resposta final, enquanto muitas outras envolvem apenas revisões diretas ou cálculos simples. Portanto, uma ideia natural é dotar os modelos de raciocínio com a capacidade de responder de forma adaptativa a essa variação, em vez de tratar todas as etapas com o mesmo nível de elaboração. Para isso, propomos o MixReasoning, um framework que ajusta dinamicamente a profundidade do raciocínio dentro de uma única resposta. A cadeia de pensamento resultante se torna, então, uma mistura de raciocínio detalhado em etapas difíceis e inferência concisa em etapas mais simples. Experimentos no GSM8K, MATH-500 e AIME mostram que o MixReasoning reduz o comprimento do raciocínio e melhora substancialmente a eficiência sem comprometer a precisão.
A capacidade de raciocínio é fundamental para os Modelos de Linguagem de Grande Escala (LLMs) resolverem tarefas complexas, mas alcançar um raciocínio confiável e escalável continua sendo um desafio. Embora o prompting de Cadeia de Pensamento (Chain-of-Thought, CoT) tenha se tornado uma abordagem predominante, os métodos existentes frequentemente sofrem com geração descontrolada, qualidade insuficiente e diversidade limitada nos caminhos de raciocínio. Esforços recentes utilizam código para aprimorar o CoT ao ancorar o raciocínio em etapas executáveis, mas tais métodos são tipicamente restritos a problemas matemáticos predefinidos, limitando a escalabilidade e generalização. Neste trabalho, propomos o Caco (Code-Assisted Chain-of-ThOught), um novo framework que automatiza a síntese de dados de raciocínio instrucional-CoT de alta qualidade, verificáveis e diversos por meio de aumento baseado em código. Diferente de trabalhos anteriores, o Caco primeiro ajusta finamente um gerador de CoT baseado em código em soluções matemáticas e de programação existentes em um formato de código unificado, depois escala a geração de dados para uma grande quantidade de traços de raciocínio diversos. Crucialmente, introduzimos validação automatizada via execução de código e filtragem baseada em regras para garantir correção lógica e diversidade estrutural, seguida pela engenharia reversa das saídas filtradas em instruções de linguagem natural e CoTs de linguagem para enriquecer a adaptabilidade das tarefas. Esse processo em loop fechado permite a síntese totalmente automatizada e escalável de dados de raciocínio com executabilidade garantida. Experimentos em nosso conjunto de dados Caco-1.3M demonstram que modelos treinados com Caco alcançam desempenho competitivo forte em benchmarks de raciocínio matemático, superando baselines robustos existentes. Análises adicionais revelam que a verificação ancorada em código e a diversidade de instruções do Caco contribuem para uma generalização superior em tarefas não vistas. Nosso trabalho estabelece um paradigma para a construção de sistemas de raciocínio autossustentáveis e confiáveis sem intervenção humana.
A geração de formas 4D condicionada por vídeo tem como objetivo recuperar a geometria 3D variável no tempo e a aparência consistente com a visão diretamente a partir de um vídeo de entrada. Neste trabalho, introduzimos um framework nativo de geração de vídeo para formas 4D que sintetiza uma única representação 3D dinâmica de ponta a ponta a partir do vídeo. Nosso framework apresenta três componentes principais baseados em modelos 3D pré-treinados em larga escala: (i) uma atenção temporal que condiciona a geração em todos os quadros, produzindo uma representação dinâmica indexada no tempo; (ii) uma amostragem de pontos consciente do tempo e ancoragem latente 4D que promovem geometria e textura temporalmente consistentes; e (iii) compartilhamento de ruído entre quadros para aumentar a estabilidade temporal. Nosso método captura com precisão movimentos não rígidos, mudanças de volume e até transições topológicas sem a necessidade de otimização por quadro. Em diversos vídeos do mundo real, nosso método melhora a robustez e a fidelidade perceptiva, além de reduzir modos de falha em comparação com as abordagens de referência.
Modelos de linguagem multimodal de grande escala (MLLMs) têm alcançado recentemente progressos notáveis em radiologia ao integrar percepção visual com compreensão de linguagem natural. No entanto, eles frequentemente geram descrições clinicamente não fundamentadas, conhecidas como alucinações médicas, que representam sérios riscos em aplicações médicas que exigem precisão e resultados baseados em imagens. Por meio de análise empírica, descobrimos que alucinações induzidas por prompts permanecem prevalentes em MLLMs de radiologia, em grande parte devido à super-sensibilidade a seções clínicas. Para abordar isso, introduzimos o Clinical Contrastive Decoding (CCD), uma estrutura de inferência sem treinamento e sem recuperação que integra sinais clínicos estruturados de modelos especializados em radiologia específicos para a tarefa. O CCD introduz um mecanismo contrastivo de duplo estágio para refinar os logits em nível de token durante a geração, melhorando assim a fidelidade clínica sem modificar o MLLM base. Experimentos em três conjuntos de dados e múltiplos modelos demonstram que o CCD melhora consistentemente o desempenho geral na geração de relatórios radiológicos (RRG). No conjunto de dados MIMIC-CXR, ele proporciona uma melhoria de até 17% no RadGraph-F1 quando aplicado a modelos RRG de última geração. Nossa abordagem oferece uma solução leve e generalizável para mitigar alucinações médicas, efetivamente conectando modelos especializados e MLLMs em radiologia.
Métodos recentes de pós-treinamento de Modelos de Linguagem de Grande Escala (LLM) dependem de mecanismos de corte em nível de token durante o Aprendizado por Reforço (RL). No entanto, identificamos uma falha fundamental nesse paradigma de RL Supervisionado por Resultados (OSRL): as razões de Amostragem de Importância (IS) dos tokens com vantagem positiva são desalinhadas, levando a uma ponderação desequilibrada entre tokens positivos e negativos. Esse desalinhamento suprime a atualização de tokens de baixa probabilidade enquanto amplifica excessivamente aqueles já de alta probabilidade. Para resolver isso, propomos a Otimização de Política de Amostragem de Importância Assimétrica (ASPO), que utiliza uma estratégia simples, porém eficaz, que inverte as razões de IS dos tokens com vantagem positiva, alinhando sua direção de atualização com a dinâmica de aprendizado dos tokens negativos. A ASPO ainda incorpora um mecanismo de corte duplo suave para estabilizar atualizações extremas enquanto mantém o fluxo de gradientes. Experimentos abrangentes em benchmarks de codificação e raciocínio matemático demonstram que a ASPO mitiga significativamente a convergência prematura, melhora a estabilidade do treinamento e aprimora o desempenho final em relação a baselines baseados em GRPO. Nossa análise fornece novos insights sobre o papel da ponderação em nível de token no OSRL e destaca a importância crítica de corrigir a IS no RL de LLM. O código e os modelos da ASPO estão disponíveis em https://github.com/wizard-III/Archer2.0.
Apresentamos o OneFlow, o primeiro modelo multimodal não autorregressivo que permite geração concorrente e de comprimento variável de modalidades mistas. Diferente dos modelos autorregressivos que impõem uma ordenação causal rígida entre a geração de texto e imagem, o OneFlow combina um Edit Flow baseado em inserção para tokens de texto discretos com Flow Matching para latentes de imagem. O OneFlow possibilita a síntese concorrente de texto e imagem com amostragem hierárquica que prioriza o conteúdo em vez da gramática. Por meio de experimentos controlados em tamanhos de modelo variando de 1B a 8B, demonstramos que o OneFlow supera as linhas de base autorregressivas tanto em tarefas de geração quanto de compreensão, utilizando até 50% menos FLOPs de treinamento. O OneFlow supera tanto abordagens autorregressivas quanto baseadas em difusão, ao mesmo tempo que desbloqueia novas capacidades para geração concorrente, refinamento iterativo e geração semelhante a raciocínio natural.
A promoção de artigos acadêmicos tornou-se um meio importante para aumentar a visibilidade da pesquisa. No entanto, os métodos automatizados existentes enfrentam desafios como narrativas limitadas, qualidade estética insuficiente e capacidade de autoajuste restrita, dificultando a disseminação eficiente e envolvente. No cerne desses desafios está um princípio simples: não há como melhorar algo quando não é possível avaliá-lo corretamente. Para resolver isso, apresentamos o EvoPresent, uma estrutura de agente de autoaperfeiçoamento que unifica narrativas coerentes, designs conscientes da estética e entrega realista de apresentações por meio de personagens virtuais. O núcleo do EvoPresent é o PresAesth, um modelo estético de aprendizado por reforço multitarefa (RL) que fornece pontuação estética confiável, ajuste de defeitos e feedback comparativo, permitindo o autoaperfeiçoamento iterativo mesmo com dados limitados de treinamento estético. Para avaliar os métodos de forma sistemática, introduzimos o EvoPresent Benchmark, um benchmark abrangente que compreende: Qualidade de Geração de Apresentação, baseado em 650 artigos de conferências de IA de alto nível com recursos multimodais (slides, vídeos e scripts) para avaliar tanto o conteúdo quanto o design; e Consciência Estética, composta por 2.000 pares de slides com níveis estéticos variados, apoiando o treinamento e avaliação conjuntos em pontuação, ajuste de defeitos e comparação. Nossas descobertas destacam que (i) Feedback de alta qualidade é essencial para o autoaperfeiçoamento do agente, enquanto a capacidade inicial por si só não garante uma autocorreção eficaz. (ii) Pipelines de geração automatizada exibem uma troca entre design visual e construção de conteúdo. (iii) O treinamento multitarefa com RL mostra maior generalização em tarefas de consciência estética.
Os métodos predominantes para treinar Modelos de Linguagem de Grande Escala (LLMs) como codificadores de texto dependem de perdas contrastivas que tratam o modelo como uma função de caixa preta, descartando suas capacidades gerativas e de raciocínio em favor de embeddings estáticos. Apresentamos o GRACE (Generative Representation Learning via Contrastive Policy Optimization), um novo framework que reconcebe sinais contrastivos não como perdas a serem minimizadas, mas como recompensas que orientam uma política generativa. No GRACE, o LLM atua como uma política que produz racionais explícitos e interpretáveis por humanos—explicações estruturadas em linguagem natural de sua compreensão semântica. Esses racionais são então codificados em embeddings de alta qualidade por meio de agregação média. Utilizando otimização por gradiente de política, treinamos o modelo com uma função de recompensa multicomponente que maximiza a similaridade entre pares positivos de consulta e minimiza a similaridade com negativos. Isso transforma o LLM de um codificador opaco em um agente interpretável cujo processo de raciocínio é transparente e inspecionável. No benchmark MTEB, o GRACE produz ganhos amplos em várias categorias: em média, considerando quatro backbones, o cenário supervisionado melhora a pontuação geral em 11,5% em relação aos modelos base, e a variante não supervisionada adiciona 6,9%, enquanto preserva as capacidades gerais. Este trabalho trata objetivos contrastivos como recompensas sobre racionais, unificando o aprendizado de representação com a geração para produzir embeddings mais robustos e racionais transparentes. O modelo, dados e código estão disponíveis em https://github.com/GasolSun36/GRACE.
Os avanços recentes em modelos médicos generativos são limitados por cenários específicos de modalidade que dificultam a integração de evidências complementares de imagens, patologia e notas clínicas. Essa fragmentação restringe sua evolução para modelos fundamentais que podem aprender e raciocinar em todo o espectro de dados biomédicos. Propomos o MeDiM, o primeiro modelo de difusão discreta médica que aprende distribuições compartilhadas entre modalidades sem componentes específicos de modalidade. O MeDiM unifica múltiplas tarefas generativas: tradução entre imagens e texto, e produção conjunta de pares imagem-relatório em diferentes domínios em resposta a prompts. Construído sobre um framework de difusão discreta, o MeDiM conecta representações visuais e linguísticas por meio de um espaço probabilístico compartilhado. Para permitir geração médica unificada e flexível, empregamos um modelo de linguagem multimodal de grande escala (MLLM) como backbone de difusão, aproveitando seu conhecimento prévio e raciocínio multimodal. Dois designs-chave são introduzidos: (1) remoção da máscara de atenção causal para contexto bidirecional, e (2) injeção de embeddings contínuos de timestep para consciência de difusão. Experimentos demonstram geração médica de alta fidelidade (FID 16,60 no MIMIC-CXR e FID 24,19 no PathGen) e geração precisa de relatórios (METEOR 0,2650 e 0,2580). Pares imagem-relatório gerados conjuntamente melhoram ainda mais o desempenho downstream (mais 6,43% BLEU-1, mais 18,57% BLEU-2, mais 31,58% BLEU-3, mais 4,80% METEOR), mostrando que o MeDiM suporta saídas multimodais coerentes e clinicamente fundamentadas.
Apresentamos o Human3R, um framework unificado e feed-forward para reconstrução 4D online de humanos e cenas, no quadro de referência mundial, a partir de vídeos monoculares capturados casualmente. Diferente de abordagens anteriores que dependem de pipelines multiestágios, refinamento iterativo com consciência de contato entre humanos e cenas, e dependências pesadas, como detecção humana, estimativa de profundidade e pré-processamento SLAM, o Human3R recupera conjuntamente corpos SMPL-X globais de múltiplas pessoas ("todos"), cenas 3D densas ("em todos os lugares") e trajetórias da câmera em uma única passada direta ("tudo de uma vez"). Nosso método é baseado no modelo de reconstrução 4D online CUT3R e utiliza ajuste eficiente de parâmetros por prompt visual, visando preservar os ricos priors espaço-temporais do CUT3R, enquanto permite a leitura direta de múltiplos corpos SMPL-X. O Human3R é um modelo unificado que elimina dependências pesadas e refinamento iterativo. Após ser treinado no conjunto de dados sintético de pequena escala BEDLAM por apenas um dia em uma GPU, ele alcança desempenho superior com eficiência notável: reconstrói múltiplos humanos de forma única, juntamente com cenas 3D, em um único estágio, em tempo real (15 FPS) com baixo consumo de memória (8 GB). Experimentos extensivos demonstram que o Human3R oferece desempenho de ponta ou competitivo em diversas tarefas, incluindo estimativa global de movimento humano, recuperação local de malha humana, estimativa de profundidade em vídeo e estimativa de pose da câmera, com um único modelo unificado. Esperamos que o Human3R sirva como uma linha de base simples, porém robusta, e seja facilmente estendido para aplicações downstream. Código disponível em https://fanegg.github.io/Human3R.
A Classificação em Contexto (In-context Ranking - ICR) é um paradigma emergente para Recuperação de Informação (Information Retrieval - IR), que aproveita a compreensão contextual de LLMs (Large Language Models) ao incorporar diretamente a descrição da tarefa, documentos candidatos e a consulta no prompt de entrada do modelo, atribuindo ao LLM a tarefa de identificar os documentos relevantes. Embora seja eficaz, a eficiência é um desafio significativo nesse paradigma, especialmente à medida que a lista de candidatos cresce devido à escala quadrática/super-linear da operação de atenção com o comprimento do contexto. Para isso, este artigo primeiro identifica estruturas inerentes e exploráveis na atenção de LLMs ajustados para ICR: (1) esparsidade de bloco interdocumento: a atenção é densa dentro de cada bloco de documento, mas esparsa entre diferentes documentos no contexto; e (2) relevância de bloco consulta-documento: as pontuações de atenção de certos tokens da consulta para um bloco de documento nas camadas intermediárias correlacionam-se fortemente com a relevância real desse documento. Motivados por essas observações, introduzimos o BlockRank (Classificação em Blocos em Contexto), um método novo que adapta a operação de atenção em um LLM ao (a) impor arquitetonicamente a esparsidade de bloco interdocumento observada, reduzindo a complexidade da atenção de quadrática para linear sem perda de desempenho, e (b) otimizar a relevância de bloco consulta-documento para documentos verdadeiramente relevantes durante o ajuste fino usando um objetivo de treinamento contrastivo auxiliar, melhorando a recuperação na atenção. Experimentos no BEIR, MSMarco e NQ com o Mistral-7B demonstram que o FLARE Mistral iguala ou supera os classificadores listwise SOTA existentes e a linha de base de ajuste fino controlado, enquanto é significativamente mais eficiente na inferência (4,7x para 100 documentos do MSMarco em contexto) e escala graciosamente para listas curtas de contexto longo, cerca de 500 documentos em contexto (aproximadamente 100K de comprimento de contexto) em menos de um segundo, apresentando uma solução escalável e eficaz para ICR.
Um componente fundamental do raciocínio em contexto é a capacidade dos modelos de linguagem (LMs) de vincular entidades para recuperação posterior. Por exemplo, um LM pode representar "Ann adora torta" vinculando "Ann" a "torta", permitindo que ele recupere "Ann" posteriormente quando perguntado "Quem adora torta?". Pesquisas anteriores sobre listas curtas de entidades vinculadas encontraram evidências robustas de que os LMs implementam essa recuperação por meio de um mecanismo posicional, onde "Ann" é recuperada com base em sua posição no contexto. Neste trabalho, descobrimos que esse mecanismo generaliza mal para cenários mais complexos; à medida que o número de entidades vinculadas no contexto aumenta, o mecanismo posicional se torna ruidoso e pouco confiável em posições intermediárias. Para compensar isso, descobrimos que os LMs complementam o mecanismo posicional com um mecanismo léxico (recuperando "Ann" usando sua contraparte vinculada "torta") e um mecanismo reflexivo (recuperando "Ann" por meio de um ponteiro direto). Por meio de extensos experimentos em nove modelos e dez tarefas de vinculação, revelamos um padrão consistente em como os LMs combinam esses mecanismos para direcionar o comportamento do modelo. Aproveitamos esses insights para desenvolver um modelo causal que combina todos os três mecanismos e estima as distribuições do próximo token com 95% de concordância. Por fim, mostramos que nosso modelo generaliza para entradas substancialmente mais longas de texto aberto intercalado com grupos de entidades, demonstrando ainda mais a robustez de nossas descobertas em cenários mais naturais. No geral, nosso estudo estabelece uma visão mais completa de como os LMs vinculam e recuperam entidades em contexto.
Modelos modernos de processamento de linguagem natural atingiram uma escala sem precedentes, mas as ferramentas para sua avaliação frequentemente permanecem um gargalo computacional, limitando o ritmo da pesquisa. Isso é particularmente crítico para métricas de avaliação durante o treinamento, como sinais de recompensa por frase em Aprendizado por Reforço, que devem operar de forma eficiente em lotes de IDs de tokens diretamente na GPU. Neste artigo, apresentamos o TensorBLEU, uma nova implementação da métrica BLEU projetada desde o início para esse caso de uso específico. Nossa abordagem é totalmente vetorizada para computação acelerada por GPU, por frase, dentro do PyTorch, e introduz um mecanismo de contagem eficiente em termos de memória. Ao criar um dicionário compacto e específico para o lote de n-grams usando torch.unique, nosso método evita os custos proibitivos de memória da vetorização tradicional baseada em hashing, tornando-o prático para modelos de vocabulário grande. Avaliamos o TensorBLEU em comparação com o NLTK, a biblioteca padrão para cálculo de BLEU baseado em IDs de tokens na CPU. Experimentos mostram que o TensorBLEU oferece acelerações de mais de 13x em GPUs de consumo (NVIDIA T4) e excede 40x em hardware de classe datacenter (NVIDIA A100). Esse desempenho transforma um gargalo significativo em uma parte insignificante do loop de treinamento. Ao definir claramente seu papel como um "BLEU de IDs de Tokens" para fins de desenvolvimento e ao disponibilizar nossa implementação em código aberto, fornecemos uma ferramenta poderosa para acelerar a pesquisa em áreas como o ajuste fino de modelos baseados em RL.
A digitalização do mundo físico em ambientes virtuais precisos e prontos para simulação oferece oportunidades significativas em diversos campos, como realidade aumentada e virtual, jogos e robótica. No entanto, os métodos atuais de reconstrução 3D e compreensão de cenas frequentemente falham em um ou mais aspectos críticos, como completude geométrica, interatividade de objetos, plausibilidade física, renderização fotorrealista ou propriedades físicas realistas para simulações dinâmicas confiáveis. Para abordar essas limitações, apresentamos o HoloScene, uma nova estrutura de reconstrução 3D interativa que atende simultaneamente a esses requisitos. O HoloScene utiliza uma representação abrangente de grafo de cena interativo, codificando a geometria, aparência e propriedades físicas dos objetos, juntamente com relações hierárquicas e interobjetos. A reconstrução é formulada como um problema de otimização baseado em energia, integrando dados observacionais, restrições físicas e priors generativos em um objetivo unificado e coerente. A otimização é realizada de forma eficiente por meio de uma abordagem híbrida que combina exploração baseada em amostragem com refinamento baseado em gradiente. Os gêmeos digitais resultantes exibem geometria completa e precisa, estabilidade física e renderização realista a partir de novos pontos de vista. Avaliações conduzidas em múltiplos conjuntos de dados de referência demonstram desempenho superior, enquanto casos de uso práticos em jogos interativos e manipulação de gêmeos digitais em tempo real ilustram a ampla aplicabilidade e eficácia do HoloScene. Página do projeto: https://xiahongchi.github.io/HoloScene.
O aprendizado por reforço com recompensas verificáveis (RLVR) é um paradigma poderoso para aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs), mas seu sucesso depende de uma exploração eficaz. Uma estratégia de exploração ideal deve enfrentar dois desafios fundamentais: preservar a qualidade das amostras e garantir a estabilidade do treinamento. Embora a amostragem com temperatura fixa padrão seja simples, ela luta para equilibrar essas demandas concorrentes, já que temperaturas altas degradam a qualidade das amostras e temperaturas baixas limitam a descoberta. Neste trabalho, propomos uma estratégia mais simples e eficaz, a Decodagem Anelada Exploratória (EAD), baseada na ideia de que a exploração é mais impactante nos primeiros tokens, que definem a direção semântica de uma sequência. A EAD implementa uma estratégia intuitiva de **explorar no início, aproveitar no final**, anelando a temperatura de amostragem de alta para baixa durante a geração. Esse cronograma dinâmico incentiva uma diversidade significativa e de alto nível no início, para então reduzir gradualmente a temperatura e preservar a qualidade das amostras, mantendo a distribuição de amostragem próxima à política alvo, o que é essencial para um treinamento estável. Demonstramos que a EAD é um método leve e plug-and-play que melhora significativamente a eficiência das amostras, superando consistentemente a amostragem com temperatura fixa em vários algoritmos de RLVR e tamanhos de modelos. Nosso trabalho sugere que alinhar a exploração com a dinâmica natural da geração sequencial oferece um caminho robusto para aprimorar o raciocínio dos LLMs.
Modelos de raciocínio de grande escala (LRMs) com capacidades de raciocínio em múltiplas etapas têm demonstrado habilidades notáveis na resolução de problemas, mas ainda apresentam vulnerabilidades de segurança preocupantes que permanecem pouco compreendidas. Neste trabalho, investigamos por que o alinhamento de segurança falha em modelos de raciocínio através de uma lente de interpretabilidade mecanicista. Utilizando uma abordagem de sondagem linear para rastrear intenções de recusa ao longo das posições de tokens, descobrimos um fenômeno marcante denominado como "precipício de recusa": muitos modelos de raciocínio mal alinhados identificam corretamente prompts prejudiciais e mantêm fortes intenções de recusa durante seu processo de pensamento, mas experimentam uma queda abrupta nas pontuações de recusa nos tokens finais antes da geração da resposta. Isso sugere que esses modelos não são inerentemente inseguros; em vez disso, suas intenções de recusa são sistematicamente suprimidas. Através de uma análise de intervenção causal, identificamos um conjunto esparso de cabeças de atenção que contribuem negativamente para o comportamento de recusa. A ablação de apenas 3\% dessas cabeças pode reduzir as taxas de sucesso de ataques para menos de 10\%. Com base nessas percepções mecanicistas, propomos o "Cliff-as-a-Judge", um novo método de seleção de dados que identifica exemplos de treinamento que exibem o maior precipício de recusa para reparar eficientemente o alinhamento de segurança dos modelos de raciocínio. Essa abordagem alcança melhorias de segurança comparáveis utilizando apenas 1,7\% dos dados de treinamento de segurança convencionais, demonstrando um efeito "menos é mais" no alinhamento de segurança.
A aceleração sem treinamento emergiu como uma área de pesquisa avançada na geração de vídeos baseada em modelos de difusão. A redundância dos latentes na inferência dos modelos de difusão fornece um ponto de entrada natural para a aceleração. Neste artigo, decompomos o processo de inferência nas etapas de codificação, remoção de ruído e decodificação, e observamos que os métodos de aceleração baseados em cache frequentemente resultam em aumentos substanciais de memória nas duas últimas etapas. Para resolver esse problema, analisamos as características da inferência em diferentes etapas e propomos estratégias específicas para cada etapa visando reduzir o consumo de memória: 1) Troca Assíncrona de Cache. 2) Divisão de Características. 3) Fatiamento de Latentes para Decodificação. Ao mesmo tempo, garantimos que a sobrecarga de tempo introduzida por essas três estratégias permaneça menor do que os ganhos de aceleração obtidos. Em comparação com a linha de base, nossa abordagem alcança uma velocidade de inferência mais rápida e um uso de memória menor, mantendo a degradação da qualidade dentro de um intervalo aceitável. O código está disponível em https://github.com/NKUShaw/LightCache.
Modelos de linguagem de grande escala (LLMs) demonstram capacidades impressionantes em uma ampla gama de tarefas, mas ainda não está claro se esse sucesso reflete um raciocínio genuíno ou uma recuperação sofisticada de informações. Apresentamos o AInstein, um framework para testar se os LLMs podem gerar soluções válidas para problemas de pesquisa em IA utilizando apenas seu conhecimento paramétrico pré-treinado — sem ajuste fino específico de domínio, aumento por recuperação ou outros auxílios externos. Nossa abordagem extrai declarações de problemas destiladas de submissões de alta qualidade do ICLR 2025, e então atribui a agentes solucionadores especializados a tarefa de propor e refinar soluções técnicas por meio de ciclos iterativos de crítica, imitando os ciclos de proposta, revisão e revisão centrais à investigação científica. Avaliamos o AInstein em 1.214 artigos do ICLR estratificados por nível de aceitação (Oral, Spotlight, Poster), utilizando um paradigma de LLM-como-juiz guiado por uma rubrica estruturada, complementada por verificações manuais direcionadas. O desempenho é avaliado com três métricas: Taxa de Sucesso (a solução aborda o problema?), Redescoberta (ela se alinha com métodos propostos por humanos?) e Novidade (ela produz abordagens válidas e originais?). Nossos resultados revelam que, embora os LLMs possam redescobrir soluções viáveis e ocasionalmente propor alternativas criativas, sua capacidade de resolução de problemas permanece frágil e altamente sensível à formulação. Essas descobertas fornecem a primeira evidência em larga escala sobre até que ponto os LLMs podem atuar como solucionadores autônomos de problemas científicos, destacando tanto seu potencial latente quanto suas limitações atuais.
O Otimização Direta de Preferências (Direct Preference Optimization - DPO) surgiu como um método simples e eficaz para alinhar grandes modelos de linguagem. No entanto, sua dependência de um parâmetro de temperatura fixo leva a um treinamento subótimo em dados de preferência diversos, causando sobreajuste em exemplos fáceis e subaprendizado em exemplos informativos. Métodos recentes surgiram para contornar esse problema. Enquanto o IPO aborda o sobreajuste geral, sua regularização uniforme pode ser excessivamente conservadora. A abordagem mais direcionada do beta-DPO sofre com suas próprias limitações: sua adaptação em nível de lote aplica uma única temperatura comprometida a pares de margens mistas, sua regra de atualização linear pode produzir valores negativos de beta instáveis, e seu mecanismo de filtragem descarta sinais de treinamento potencialmente úteis. Neste trabalho, introduzimos a Otimização Direta de Preferências com Margem Adaptativa (Margin-Adaptive Direct Preference Optimization - MADPO), um método que oferece uma solução estável, que preserva dados e opera em nível de instância. O MADPO emprega uma abordagem prática em duas etapas: primeiro, treina um modelo de recompensa para estimar as margens de preferência e, em seguida, usa essas margens para aplicar um peso contínuo e adaptativo à perda do DPO para cada amostra de treinamento individual. Esse esquema de reponderação cria uma margem alvo eficaz que é amplificada para pares difíceis e atenuada para pares fáceis, permitindo um controle granular sobre o sinal de aprendizado. Fornecemos uma análise teórica abrangente, provando que o MADPO tem um cenário de otimização bem comportado e é robusto a erros de estimativa do modelo de recompensa. Validamos nossa teoria com experimentos em uma tarefa de geração de sentimento, onde o MADPO supera consistentemente e significativamente as linhas de base fortes em conjuntos de dados de qualidade variável. Ele alcança ganhos de desempenho de até +33,3% em dados de Alta Qualidade e +10,5% em dados de Baixa Qualidade em relação ao próximo melhor método. Nossos resultados estabelecem o MADPO como uma abordagem mais robusta e fundamentada para o alinhamento de preferências.
Apresentamos o Equilibrium Matching (EqM), um framework de modelagem generativa construído a partir de uma perspectiva de dinâmica de equilíbrio. O EqM descarta as dinâmicas condicionadas ao tempo e fora do equilíbrio presentes nos modelos generativos tradicionais baseados em difusão e fluxo, aprendendo, em vez disso, o gradiente de equilíbrio de uma paisagem de energia implícita. Por meio dessa abordagem, podemos adotar um processo de amostragem baseado em otimização durante a inferência, onde as amostras são obtidas por descida de gradiente na paisagem aprendida, com tamanhos de passo ajustáveis, otimizadores adaptativos e computação adaptativa. Empiricamente, o EqM supera o desempenho de geração dos modelos de difusão/fluxo, alcançando um FID de 1,90 no ImageNet 256x256. O EqM também é teoricamente justificado para aprender e amostrar a partir da variedade de dados. Além da geração, o EqM é um framework flexível que naturalmente lida com tarefas como remoção de ruído em imagens parcialmente ruidosas, detecção de dados fora da distribuição (OOD) e composição de imagens. Ao substituir velocidades condicionadas ao tempo por uma paisagem de equilíbrio unificada, o EqM oferece uma ponte mais estreita entre modelos baseados em fluxo e energia, além de uma rota simples para inferência orientada por otimização.
Grandes modelos de linguagem apresentam potencial como assistentes científicos, porém os agentes existentes dependem exclusivamente da evolução de algoritmos ou de pesquisas profundas isoladas, ambas com limitações críticas. A evolução pura de algoritmos, como no AlphaEvolve, depende apenas do conhecimento interno dos LLMs e rapidamente atinge um platô em domínios complexos, enquanto a pesquisa profunda pura propõe ideias sem validação, resultando em soluções irrealistas ou impossíveis de implementar. Apresentamos o DeepEvolve, um agente que integra pesquisa profunda com evolução de algoritmos, unindo recuperação de conhecimento externo, edição de código entre arquivos e depuração sistemática em um ciclo iterativo orientado por feedback. Cada iteração não apenas propõe novas hipóteses, mas também as refina, implementa e testa, evitando tanto melhorias superficiais quanto refinamentos improdutivos. Em nove benchmarks de química, matemática, biologia, materiais e patentes, o DeepEvolve consistentemente melhora o algoritmo inicial, produzindo novos algoritmos executáveis com ganhos sustentados. Ao preencher a lacuna entre evolução não guiada e pesquisa sem fundamentação, o DeepEvolve fornece uma estrutura confiável para avançar a descoberta de algoritmos científicos. Nosso código está disponível em https://github.com/liugangcode/deepevolve.
Sistemas RAG (Geração Aumentada por Recuperação) e agentes web estão sendo cada vez mais avaliados em tarefas de busca profunda multi-hop, mas a prática atual sofre de duas grandes limitações. Primeiro, a maioria dos benchmarks vaza o caminho de raciocínio no texto da pergunta, permitindo que os modelos sigam pistas superficiais em vez de descobrir cadeias de raciocínio de forma autônoma. Segundo, a avaliação é tipicamente reduzida a uma única taxa de acerto, que colapsa comportamentos diversos em uma única pontuação e obscurece se as falhas decorrem de busca inadequada, uso pobre do conhecimento ou recusa inapropriada. Para abordar essas questões, apresentamos o WebDetective, um benchmark de perguntas multi-hop sem dicas, emparelhado com um ambiente controlado da Wikipedia que garante rastreabilidade completa das ações do modelo, e uma estrutura de avaliação holística que separa suficiência de busca, utilização do conhecimento e comportamento de recusa. Nossa avaliação de 25 modelos state-of-the-art revela fraquezas sistemáticas em todas as arquiteturas: os modelos lutam com a utilização do conhecimento, apesar de terem evidências suficientes, e demonstram quase ausência de recusa apropriada quando as evidências estão faltando. Esses padrões expõem uma lacuna fundamental: os sistemas atuais se destacam em executar caminhos de raciocínio dados, mas falham quando precisam descobri-los. Desenvolvemos um fluxo de trabalho agentivo, EvidenceLoop, que visa explicitamente os desafios identificados pelo nosso benchmark, incorporando loops de verificação e rastreamento sistemático de evidências que melhoram tanto as capacidades de busca quanto de síntese. Essa linha de base demonstra que a estrutura diagnóstica do WebDetective pode orientar melhorias arquitetônicas concretas, estabelecendo nosso benchmark como uma ferramenta crítica para o desenvolvimento de sistemas de raciocínio genuinamente autônomos, em vez de agentes que seguem padrões.
A implantação de agentes de IA autônomos em domínios sensíveis, como a área da saúde, introduz riscos críticos à segurança, proteção e privacidade. Esses agentes podem desviar-se dos objetivos do usuário, violar políticas de manipulação de dados ou serem comprometidos por ataques adversariais. Mitigar esses perigos exige um mecanismo para garantir formalmente que as ações de um agente estejam em conformidade com restrições de segurança predefinidas, um desafio que os sistemas existentes não abordam completamente. Apresentamos o VeriGuard, uma estrutura inovadora que fornece garantias formais de segurança para agentes baseados em LLM (Large Language Models) por meio de uma arquitetura de duplo estágio projetada para robustez e correção verificável. O estágio inicial offline envolve um processo abrangente de validação. Ele começa esclarecendo a intenção do usuário para estabelecer especificações de segurança precisas. O VeriGuard então sintetiza uma política comportamental e a submete a testes e verificação formal para comprovar sua conformidade com essas especificações. Esse processo iterativo refina a política até que ela seja considerada correta. Posteriormente, o segundo estágio fornece monitoramento online de ações, onde o VeriGuard atua como um monitor em tempo de execução para validar cada ação proposta pelo agente em relação à política pré-verificada antes da execução. Essa separação entre a validação offline exaustiva e o monitoramento online leve permite que garantias formais sejam aplicadas de forma prática, fornecendo uma salvaguarda robusta que melhora substancialmente a confiabilidade dos agentes LLM.
A Conversa de Apoio Emocional (ESC, na sigla em inglês) desempenha um papel crucial no alívio do estresse psicológico e na oferta de valor emocional por meio do diálogo. Embora estudos recentes tenham se concentrado amplamente na ampliação de dados e na construção de corpora sintéticos, eles frequentemente negligenciam os processos mais profundos de raciocínio cognitivo que sustentam um apoio emocional eficaz. Para abordar essa lacuna, propomos o CARE, uma nova estrutura que fortalece o raciocínio na ESC sem depender de dados sintéticos em larga escala. O CARE aproveita o conjunto de treinamento original da ESC para orientar os modelos na geração de respostas logicamente coerentes e de apoio, aprimorando explicitamente o raciocínio cognitivo. Com base nessa fundação, empregamos ainda o aprendizado por reforço para refinar e fortalecer o processo de raciocínio. Os resultados experimentais demonstram que o CARE melhora significativamente tanto a consistência lógica quanto a qualidade de apoio das respostas, avançando o desenvolvimento de sistemas de apoio emocional empáticos, cognitivamente robustos e semelhantes aos humanos.
A maioria dos benchmarks existentes para compreensão de visão egocêntrica concentra-se principalmente em cenários diurnos, negligenciando as condições de baixa luminosidade que são inevitáveis em aplicações do mundo real. Para investigar essa lacuna, apresentamos o EgoNight, o primeiro benchmark abrangente para visão egocêntrica noturna, com a tarefa central de resposta a perguntas visuais (VQA). Uma característica fundamental do EgoNight é a introdução de vídeos alinhados dia-noite, que melhoram a qualidade das anotações noturnas utilizando os dados diurnos e revelam claras lacunas de desempenho entre as condições de iluminação. Para alcançar isso, coletamos tanto vídeos sintéticos renderizados pelo Blender quanto gravações do mundo real, garantindo que as cenas e ações estejam visual e temporalmente alinhadas. Aproveitando esses vídeos emparelhados, construímos o EgoNight-VQA, apoiado por um novo mecanismo de rotulagem automática noturna aumentada por dados diurnos e refinado por meio de extensa verificação humana. Cada par de perguntas e respostas é verificado duas vezes por anotadores para garantir confiabilidade. No total, o EgoNight-VQA contém 3658 pares de perguntas e respostas em 90 vídeos, abrangendo 12 tipos diversos de perguntas, com mais de 300 horas de trabalho humano. Avaliações de modelos de linguagem multimodal de última geração (MLLMs) revelam quedas substanciais de desempenho ao transferir do dia para a noite, destacando os desafios de raciocínio em condições de baixa luminosidade. Além do VQA, o EgoNight também introduz duas tarefas auxiliares, recuperação de correspondência dia-noite e estimativa de profundidade egocêntrica à noite, que exploram ainda mais os limites dos modelos existentes. Acreditamos que o EgoNight-VQA fornece uma base sólida para avançar a pesquisa em visão egocêntrica orientada por aplicações e para desenvolver modelos que generalizem entre domínios de iluminação. Todos os dados e códigos serão disponibilizados após a aceitação.
Modelos de linguagem multimodal recentes têm mostrado potencial na resposta a perguntas baseadas em gráficos, mas seu desempenho cai drasticamente em gráficos não anotados, aqueles que exigem interpretação visual precisa em vez de depender de atalhos textuais. Para resolver isso, introduzimos o ChartAgent, uma estrutura agentiva inovadora que realiza explicitamente o raciocínio visual diretamente no domínio espacial do gráfico. Diferente do raciocínio em cadeia de pensamento textual, o ChartAgent decompõe iterativamente as consultas em subtarefas visuais e manipula e interage ativamente com as imagens dos gráficos por meio de ações especializadas, como desenhar anotações, recortar regiões (por exemplo, segmentar fatias de pizza, isolar barras) e localizar eixos, utilizando uma biblioteca de ferramentas visuais específicas para gráficos para cumprir cada subtarefa. Esse processo iterativo de raciocínio espelha de perto as estratégias cognitivas humanas para a compreensão de gráficos. O ChartAgent alcança precisão de ponta nos benchmarks ChartBench e ChartX, superando métodos anteriores com ganhos absolutos de até 16,07% no geral e 17,31% em consultas numericamente intensivas e não anotadas. Além disso, nossas análises mostram que o ChartAgent é (a) eficaz em diversos tipos de gráficos, (b) obtém as pontuações mais altas em diferentes níveis de complexidade visual e de raciocínio, e (c) serve como uma estrutura plug-and-play que melhora o desempenho em diversos modelos de linguagem subjacentes. Nosso trabalho está entre os primeiros a demonstrar raciocínio visualmente fundamentado para a compreensão de gráficos usando agentes multimodais aumentados por ferramentas.
Modelos de visão e linguagem (VLMs) com incorporação de embeddings são tipicamente pré-treinados com janelas de texto curtas (<77 tokens), o que força o truncamento de legendas de formato longo. No entanto, a distribuição de legendas biomédicas provenientes de literatura de código aberto em grande escala revela que uma grande porção dessas legendas excede significativamente 77 tokens. Para isso, investigamos o impacto do pré-treinamento em legendas biomédicas de formato longo, estendendo o comprimento do contexto dos codificadores de texto em VLMs. Descobrimos que contextos mais longos (e, portanto, a habilitação de supervisão adicional fornecida em legendas de formato longo) correlacionam-se com melhor desempenho em recuperação e classificação. Diante dessa descoberta, introduzimos o BIOMEDICA-LongCAP, um conjunto de dados de 1 milhão de pares imagem-legenda enriquecidos com descrições contextualizadas de artigos de texto completo, fornecendo supervisão textual mais longa e adicional. Utilizando o BIOMEDICA-LongCAP, treinamos o BMC-LongCLIP, um VLM biomédico de contexto longo com um codificador de texto que suporta janelas de até 512 tokens. Nosso modelo estende a capacidade de contexto em 6,6 vezes, reduzindo o desperdício de tokens de 55% para apenas 2,2%. Em benchmarks de recuperação de legendas longas, o BMC-LongCLIP alcança ganhos absolutos de até +30% em Recall@1 e melhorias médias de +2% em classificação, além de convergir mais rapidamente do que modelos de contexto curto. Nossos resultados demonstram que a modelagem de contexto longo é uma direção promissora para o avanço de VLMs biomédicos.
A Segmentação de Objetos em Vídeo por Referência (RVOS) requer a segmentação de objetos específicos em um vídeo guiada por uma descrição em linguagem natural. O principal desafio do RVOS é ancorar conceitos linguísticos abstratos em um conjunto específico de pixels e segmentá-los continuamente através das dinâmicas complexas de um vídeo. Diante dessa dificuldade, trabalhos anteriores frequentemente decompuseram a tarefa em um pipeline pragmático de `localizar-depois-segmentar`. No entanto, esse design em cascata cria um gargalo de informação ao simplificar a semântica em prompts geométricos grosseiros (por exemplo, um ponto) e luta para manter a consistência temporal, já que o processo de segmentação é frequentemente desacoplado do alinhamento inicial com a linguagem. Para superar essas limitações fundamentais, propomos o FlowRVS, um novo framework que reconceitualiza o RVOS como um problema de fluxo contínuo condicional. Isso nos permite aproveitar os pontos fortes inerentes dos modelos T2V pré-treinados, o controle fino de pixels, o alinhamento semântico texto-vídeo e a coerência temporal. Em vez de gerar convencionalmente do ruído para a máscara ou prever diretamente a máscara, reformulamos a tarefa aprendendo uma deformação direta e guiada por linguagem da representação holística de um vídeo para sua máscara alvo. Nossa abordagem gerativa em estágio único alcança novos resultados state-of-the-art em todos os principais benchmarks de RVOS. Especificamente, obtendo um J&F de 51,1 no MeViS (+1,6 em relação ao SOTA anterior) e 73,3 no Ref-DAVIS17 em zero shot (+2,7), demonstrando o potencial significativo de modelar tarefas de compreensão de vídeo como processos de deformação contínua.
Embora a quantização pós-treinamento seja amplamente adotada para a implantação eficiente de grandes modelos de linguagem, os mecanismos subjacentes à robustez da quantização permanecem pouco claros. Realizamos uma análise abrangente da degradação da quantização em trajetórias de treinamento de modelos de linguagem de código aberto com até 32 bilhões de parâmetros e 15 trilhões de tokens de treinamento para avaliar com precisão a relação entre a dinâmica de treinamento e o desempenho da quantização. Nossa principal descoberta é que os erros de quantização em execuções de treinamento em grande escala são impulsionados por uma interação complexa entre a taxa de aprendizagem e outros hiperparâmetros de treinamento. Especificamente, uma vez que as taxas de aprendizagem decaem, a perda de validação e o erro de quantização divergem, em grande parte independentes da escala dos dados de treinamento. Para investigar intervenções na dinâmica de treinamento e identificar configurações específicas que podem modular favoravelmente a robustez da quantização, treinamos nossos próprios modelos em experimentos controlados com até 100 bilhões de tokens. Nossos resultados desafiam a suposição de que aumentar a escala do conjunto de dados compromete inerentemente a eficácia da quantização, demonstrando, em vez disso, que intervenções estratégicas nos hiperparâmetros de treinamento podem melhorar a qualidade da quantização em escala.
A regressão por processo gaussiano (GP) oferece uma estratégia para acelerar a busca por pontos de sela em superfícies de energia de alta dimensionalidade, reduzindo o número de vezes que a energia e suas derivadas em relação às coordenadas atômicas precisam ser avaliadas. No entanto, a sobrecarga computacional na otimização dos hiperparâmetros pode ser significativa e tornar a abordagem ineficiente. Falhas também podem ocorrer se a busca avançar muito em regiões que não são bem representadas pelo modelo GP. Aqui, esses desafios são resolvidos utilizando medidas de transporte ótimo com consciência geométrica e uma estratégia de poda ativa que emprega uma soma das distâncias de Wasserstein-1 para cada tipo de átomo na amostragem de pontos mais distantes, selecionando um subconjunto de tamanho fixo de configurações geometricamente diversas para evitar o aumento rápido do custo das atualizações do GP à medida que mais observações são feitas. A estabilidade é aprimorada por uma métrica invariante a permutações que fornece um raio de confiança confiável para parada antecipada e uma penalidade de barreira logarítmica para o crescimento da variância do sinal. Essas alterações algorítmicas fisicamente motivadas demonstram sua eficácia ao reduzir para menos da metade o tempo computacional médio em um conjunto de 238 configurações desafiadoras de um conjunto de dados previamente publicado de reações químicas. Com essas melhorias, a abordagem GP é estabelecida como um algoritmo robusto e escalável para acelerar a busca por pontos de sela quando a avaliação da energia e das forças atômicas requer um esforço computacional significativo.
Nas últimas duas décadas, o reconhecimento de emoções em fala (SER, do inglês Speech Emotion Recognition) tem recebido crescente atenção. Para treinar sistemas SER, pesquisadores coletam bancos de dados de fala emocional anotados por avaliadores crowdsourced ou internos, que selecionam emoções de categorias predefinidas. No entanto, discordâncias entre os avaliadores são comuns. Métodos convencionais tratam essas discordâncias como ruído, agregando as etiquetas em um único alvo de consenso. Embora isso simplifique o SER como uma tarefa de etiquetagem única, ignora a subjetividade inerente da percepção humana das emoções. Esta dissertação desafia tais pressupostos e questiona: (1) As avaliações emocionais minoritárias devem ser descartadas? (2) Os sistemas SER devem aprender apenas com a percepção de poucos indivíduos? (3) Os sistemas SER devem prever apenas uma emoção por amostra? Estudos psicológicos mostram que a percepção emocional é subjetiva e ambígua, com limites emocionais sobrepostos. Propomos novas perspectivas de modelagem e avaliação: (1) Manter todas as avaliações emocionais e representá-las com distribuições de etiquetas suaves. Modelos treinados com avaliações individuais dos anotadores e otimizados conjuntamente com sistemas SER padrão melhoram o desempenho em testes com etiquetas de consenso. (2) Redefinir a avaliação do SER, incluindo todos os dados emocionais e permitindo emoções co-ocorrentes (por exemplo, triste e irritado). Propomos uma "regra inclusiva" que agrega todas as avaliações para maximizar a diversidade na representação das etiquetas. Experimentos em quatro bancos de dados de emoções em inglês mostram desempenho superior em relação à etiquetagem por maioria ou pluralidade. (3) Construir uma matriz de penalização para desencorajar combinações improváveis de emoções durante o treinamento. Integrá-la às funções de perda melhora ainda mais o desempenho. No geral, abraçar avaliações minoritárias, múltiplos anotadores e previsões de múltiplas emoções resulta em sistemas SER mais robustos e alinhados com a percepção humana.
Modelos de Linguagem de Grande Escala (LLMs) são propensos à alucinação, a geração de afirmações plausíveis, mas factualmente incorretas. Este trabalho investiga as origens intrínsecas e arquitetônicas desse modo de falha por meio de três contribuições principais. Primeiro, para permitir o rastreamento confiável de falhas semânticas internas, propomos o Rastreamento Semântico Distribucional (DST), um framework unificado que integra técnicas estabelecidas de interpretabilidade para produzir um mapa causal do raciocínio do modelo, tratando o significado como uma função do contexto (semântica distribucional). Segundo, identificamos a camada do modelo na qual uma alucinação se torna inevitável, apontando uma camada de compromisso específica onde as representações internas do modelo divergem irreversivelmente da factualidade. Terceiro, identificamos o mecanismo subjacente para essas falhas. Observamos um conflito entre vias computacionais distintas, que interpretamos usando a lente da teoria do processo dual: uma via associativa heurística rápida (semelhante ao Sistema 1) e uma via contextual deliberada lenta (semelhante ao Sistema 2), levando a modos de falha previsíveis, como os Desvios de Atalho de Raciocínio. A capacidade do nosso framework de quantificar a coerência da via contextual revela uma forte correlação negativa (rho = -0,863) com as taxas de alucinação, implicando que essas falhas são consequências previsíveis de fraquezas semânticas internas. O resultado é uma explicação mecanicista de como, quando e por que as alucinações ocorrem dentro da arquitetura Transformer.
Implantações de grandes modelos de linguagem no mundo real (por exemplo, sistemas de IA conversacional, assistentes de geração de código) naturalmente geram sinais abundantes de insatisfação implícita do usuário (DSAT), à medida que os usuários iteram em busca de melhores respostas por meio de refinamentos, correções e preferências expressas, enquanto o feedback explícito de satisfação (SAT) é escasso. As abordagens existentes de aprendizado de preferências estão mal alinhadas com esse perfil de dados, pois dependem de anotações humanas custosas ou assumem respostas positivas abundantes. Neste artigo, introduzimos o DRIFT (Dissatisfaction-Refined Iterative preFerence Training), que ancora o treinamento em sinais reais de DSAT e amostra positivos dinamicamente a partir da política em evolução. Empiricamente, modelos DRIFT treinados em conjuntos de dados reais WildFeedback e sintéticos UltraFeedback alcançam até +6,23% (7B) / +7,61% (14B) no WildBench Task Score e até +8,95% (7B) / +12,29% (14B) na taxa de vitória do AlpacaEval2 em relação aos modelos base, superando métodos de linha de base robustos, como DPO iterativo e SPIN. Em escalas maiores, as melhorias são particularmente pronunciadas: modelos de 14B treinados com DRIFT superam o GPT-4o-mini no WildBench. Análises adicionais mostram que o DRIFT também preserva a capacidade exploratória, gerando soluções de alta recompensa mais diversas em vez de colapsar para subconjuntos estreitos. Teoricamente, demonstramos que esse design preserva as margens de preferência e evita a degeneração do gradiente. Esses resultados mostram que o DRIFT é uma receita eficaz e escalável para pós-treinamento no mundo real que aproveita o sinal mais abundante e informativo. O código e os dados estão disponíveis em https://github.com/cacayaya/DRIFT.git.
Dados de código têm demonstrado aprimorar as capacidades de raciocínio de modelos de linguagem de grande escala (LLMs), mas ainda não está claro quais aspectos do código são os mais responsáveis por isso. Investigamos essa questão com uma abordagem sistemática e centrada em dados. Construímos conjuntos de dados de instruções paralelas em dez linguagens de programação e aplicamos perturbações controladas que interrompem seletivamente propriedades estruturais ou semânticas do código. Em seguida, ajustamos finamente LLMs de cinco famílias de modelos e oito escalas em cada variante e avaliamos seu desempenho em tarefas de linguagem natural, matemática e código. Em 3.331 experimentos, nossos resultados mostram que os LLMs são mais vulneráveis a perturbações estruturais do que a semânticas, particularmente em tarefas de matemática e código. Abstrações apropriadas, como pseudocódigo e fluxogramas, podem ser tão eficazes quanto o código, enquanto codificar a mesma informação com menos tokens sem aderir à sintaxe original pode muitas vezes manter ou até melhorar o desempenho. Notavelmente, mesmo código corrompido com sinais enganosos permanece competitivo quando regularidades superficiais persistem. Por fim, estilos sintáticos também moldam ganhos específicos de tarefas, com Python favorecendo o raciocínio em linguagem natural e linguagens de nível mais baixo, como Java e Rust, favorecendo a matemática. Por meio de nossa abordagem sistemática, buscamos fornecer insights sobre como diferentes propriedades do código influenciam o raciocínio e informar o design de dados de treinamento para aprimorar as capacidades de raciocínio dos LLMs.
Os modelos Visão-Linguagem-Ação (VLAs) têm demonstrado desempenho notável no controle de robôs. No entanto, eles permanecem fundamentalmente limitados em tarefas que exigem alta precisão devido ao seu paradigma de inferência única. Embora abordagens de escalonamento em tempo de teste usando verificadores externos tenham mostrado potencial, elas exigem treinamento adicional e falham em generalizar para condições não vistas. Propomos o Masking Distribution Guided Selection (MG-Select), uma nova estrutura de escalonamento em tempo de teste para VLAs que aproveita as propriedades internas do modelo sem exigir treinamento adicional ou módulos externos. Nossa abordagem utiliza a divergência KL de uma distribuição de tokens de ação de referência como métrica de confiança para selecionar a ação ótima entre múltiplos candidatos. Introduzimos uma distribuição de referência gerada pelo mesmo VLA, mas com estados e condições de linguagem mascarados aleatoriamente como entradas, garantindo máxima incerteza enquanto permanece alinhada com a distribuição da tarefa alvo. Além disso, propomos uma estratégia de treinamento conjunto que permite ao modelo aprender tanto distribuições condicionais quanto incondicionais, aplicando dropout às condições de estado e linguagem, melhorando assim ainda mais a qualidade da distribuição de referência. Nossos experimentos demonstram que o MG-Select alcança melhorias significativas de desempenho, incluindo um aumento de 28%/35% em tarefas do mundo real dentro/distribuição fora da distribuição, juntamente com um ganho relativo de 168% em tarefas de pegar e colocar do RoboCasa treinadas com 30 demonstrações.
Trabalhos recentes sobre avaliação de contexto e memória têm se concentrado principalmente em instâncias conversacionais, mas a necessidade de avaliar a memória em ambientes empresariais dinâmicos é crucial para sua aplicação eficaz. Apresentamos o MEMTRACK, um benchmark projetado para avaliar a memória de longo prazo e o rastreamento de estado em ambientes de agentes multiplataforma. O MEMTRACK modela fluxos de trabalho organizacionais realistas, integrando eventos assíncronos em várias plataformas de comunicação e produtividade, como Slack, Linear e Git. Cada instância do benchmark fornece uma linha do tempo cronologicamente intercalada entre plataformas, com informações ruidosas, conflitantes e interreferenciadas, além de possíveis compreensões e explorações de bases de código/sistemas de arquivos. Consequentemente, nosso benchmark testa capacidades de memória, como aquisição, seleção e resolução de conflitos. Curamos o conjunto de dados do MEMTRACK por meio de design manual orientado por especialistas e síntese escalável baseada em agentes, gerando cenários ecologicamente válidos fundamentados em processos reais de desenvolvimento de software. Introduzimos métricas pertinentes para Correção, Eficiência e Redundância, que capturam a eficácia dos mecanismos de memória além do desempenho simples em perguntas e respostas. Experimentos com LLMs state-of-the-art (SoTA) e backends de memória revelam desafios na utilização da memória em horizontes longos, no tratamento de dependências entre plataformas e na resolução de contradições. Notavelmente, o modelo GPT-5, de melhor desempenho, alcança apenas uma pontuação de 60% em Correção no MEMTRACK. Este trabalho fornece uma estrutura extensível para avançar a pesquisa de avaliação de agentes aumentados por memória, além do foco atual em configurações conversacionais, e prepara o terreno para a avaliação de memória em ambientes organizacionais complexos, envolvendo múltiplos agentes e múltiplas plataformas.
As técnicas modernas de alinhamento de preferências, como a amostragem Best-of-N (BoN), dependem de modelos de recompensa treinados com dados de comparação pareada. Embora eficazes para aprender preferências relativas, esse paradigma falha em capturar um sinal de aceitabilidade da resposta, deixando os sistemas vulneráveis a selecionar a menos ruim entre muitas opções inaceitáveis. Isso é particularmente problemático para prompts difíceis, onde o risco de tais falsas aceitações aumenta com o número de amostras. Neste artigo, abordamos essa lacuna crítica de confiabilidade ao introduzir uma nova estrutura de coleta de dados e modelagem. Ao complementar os dados de preferência com uma opção externa, inspirada em modelos de escolha discreta, treinamos um modelo de recompensa que pode distinguir não apenas o que é melhor, mas o que é bom o suficiente. Aproveitamos essa capacidade para criar uma estratégia de inferência adaptativa, best of mini-N in-loop, que divide o orçamento de geração em loops sequenciais com uma condição de saída antecipada calibrada. Nossos experimentos mostram que, quando ajustada como uma barreira de proteção para alinhamento, ela reduz falhas de confiabilidade em 70%, e quando ajustada como um acelerador de inferência, melhora a velocidade média de inferência em mais de 22% no cenário de sentimento IMDB. Assim, fornecemos uma estrutura fundamentada e flexível para que os profissionais gerenciem explicitamente a troca entre confiabilidade e eficiência computacional.
Os modelos de IA são cada vez mais utilizados para análise e visualização de dados, porém os benchmarks raramente abordam tarefas específicas para gráficos de dispersão, limitando a compreensão do desempenho. Para preencher essa lacuna em um dos tipos de gráficos mais comuns, introduzimos um conjunto de dados sintético e anotado com mais de 18.000 gráficos de dispersão, gerados a partir de seis geradores de dados e 17 designs de gráficos, além de um benchmark baseado nesse conjunto. Avaliamos modelos proprietários da OpenAI e do Google utilizando N-shot prompting em cinco tarefas distintas, derivadas das anotações de caixas delimitadoras de clusters, suas coordenadas centrais e coordenadas de outliers. Os modelos da OpenAI e o Gemini 2.5 Flash, especialmente quando instruídos com exemplos, são opções viáveis para contar clusters e, no caso do Flash, identificar outliers (Acurácia acima de 90%). No entanto, os resultados para tarefas relacionadas à localização são insatisfatórios: Precisão e Revocação estão próximas ou abaixo de 50%, exceto para o Flash na identificação de outliers (65,01%). Além disso, o impacto do design do gráfico no desempenho parece ser um fator secundário, mas é recomendável evitar gráficos de dispersão com proporções amplas (16:9 e 21:9) ou aqueles coloridos aleatoriamente. Materiais suplementares estão disponíveis em https://github.com/feedzai/biy-paper.
O desempenho dos modelos de aprendizado de máquina depende fortemente dos dados de treinamento. A escassez de conjuntos de dados em grande escala e bem anotados representa desafios significativos na criação de modelos robustos. Para enfrentar esse problema, os dados sintéticos gerados por meio de simulações e modelos generativos surgiram como uma solução promissora, aumentando a diversidade dos conjuntos de dados e melhorando o desempenho, a confiabilidade e a resiliência dos modelos. No entanto, avaliar a qualidade desses dados gerados requer uma métrica eficaz. Este artigo apresenta a Métrica de Qualidade de Conjunto de Dados Sintéticos (SDQM, na sigla em inglês) para avaliar a qualidade dos dados em tarefas de detecção de objetos sem exigir que o treinamento do modelo convirja. Essa métrica permite uma geração e seleção mais eficiente de conjuntos de dados sintéticos, abordando um desafio crucial em tarefas de detecção de objetos com recursos limitados. Em nossos experimentos, a SDQM demonstrou uma forte correlação com as pontuações de Precisão Média (mAP, na sigla em inglês) do YOLOv11, um modelo líder em detecção de objetos, enquanto métricas anteriores apresentaram apenas correlações moderadas ou fracas. Além disso, ela fornece insights acionáveis para melhorar a qualidade dos conjuntos de dados, minimizando a necessidade de treinamentos iterativos custosos. Essa métrica escalável e eficiente estabelece um novo padrão para a avaliação de dados sintéticos. O código da SDQM está disponível em https://github.com/ayushzenith/SDQM.
O reconhecimento automático de acordes (ACR) por meio de modelos de aprendizado profundo tem gradualmente alcançado uma precisão promissora, mas dois desafios principais permanecem. Primeiro, trabalhos anteriores focaram principalmente no ACR no domínio do áudio, enquanto o ACR em música simbólica (por exemplo, partitura) recebeu atenção limitada devido à escassez de dados. Segundo, os métodos existentes ainda negligenciam estratégias alinhadas com as práticas analíticas musicais humanas. Para abordar esses desafios, fazemos duas contribuições: (1) introduzimos o POP909-CL, uma versão aprimorada do conjunto de dados POP909 com conteúdo alinhado ao tempo e rótulos corrigidos manualmente de acordes, batidas, tonalidades e compassos; e (2) propomos o BACHI, um modelo de reconhecimento de acordes simbólicos que decompõe a tarefa em diferentes etapas de decisão, nomeadamente detecção de fronteiras e classificação iterativa da raiz do acorde, qualidade e baixo (inversão). Esse mecanismo espelha as práticas de treinamento auditivo humano. Experimentos demonstram que o BACHI alcança desempenho de ponta em reconhecimento de acordes tanto em benchmarks de música clássica quanto pop, com estudos de ablação validando a eficácia de cada módulo.
O cuidado com os cabelos é uma atividade diária essencial, mas permanece inacessível para indivíduos com mobilidade limitada e desafiadora para sistemas robóticos autônomos devido à estrutura física refinada e à dinâmica complexa dos fios. Neste trabalho, apresentamos o DYMO-Hair, um sistema robótico de cuidado capilar baseado em modelos. Introduzimos um novo paradigma de aprendizado de dinâmica adequado para quantidades volumétricas, como os cabelos, que se baseia em um mecanismo de edição de estado latente condicionado por ações, acoplado a um espaço latente 3D compacto de diversos penteados para melhorar a generalização. Esse espaço latente é pré-treinado em escala usando um novo simulador de física capilar, permitindo a generalização para penteados nunca vistos anteriormente. Utilizando o modelo de dinâmica com um planejador de Integral de Trajetória Preditiva por Modelo (MPPI), o DYMO-Hair é capaz de realizar estilização capilar visual condicionada por objetivos. Experimentos em simulação demonstram que o modelo de dinâmica do DYMO-Hair supera as abordagens de referência na captura de deformações locais para diversos penteados não vistos. O DYMO-Hair também supera as abordagens de referência em tarefas de estilização capilar em malha fechada para penteados não vistos, com uma média de 22% menos erro geométrico final e 42% mais taxa de sucesso do que o sistema estado da arte. Experimentos no mundo real exibem a transferibilidade zero-shot do nosso sistema para perucas, alcançando sucesso consistente em penteados desafiadores não vistos onde o sistema estado da arte falha. Juntos, esses resultados estabelecem uma base para o cuidado capilar robótico baseado em modelos, avançando em direção a uma estilização capilar robótica mais generalizável, flexível e acessível em ambientes físicos não restritos. Mais detalhes estão disponíveis em nossa página do projeto: https://chengyzhao.github.io/DYMOHair-web/.
Destilar os traços de pensamento de um Modelo de Linguagem de Grande Escala (LLM) com capacidades de raciocínio em um modelo menor tem se mostrado eficaz. No entanto, há uma escassez de trabalhos sobre como o desempenho dos modelos escala com a quantidade de dados de destilação. Neste trabalho, estudamos a tendência de escalonamento da destilação de habilidades de programação competitiva em dois pequenos LLMs sem capacidade de raciocínio. Validamos a hipótese de que existe um vale de raciocínio de código: o desempenho subsequente em programação competitiva primeiro cai à medida que a quantidade de dados aumenta, depois aumenta de forma mais acentuada do que log-linear. Tendo identificado a tendência, ajustamos ainda mais os modelos em dois estágios diferentes de destilação nos mesmos dados para fundamentar conclusões sobre suas respectivas fases de aprendizado. Aprendemos que, em estágios nos regimes de dados baixos e médio-baixos, modelos pequenos se beneficiam significativamente de questões de programação mais fáceis do que de questões mais difíceis. Também descobrimos que, surpreendentemente, a correção das saídas nos dados de treinamento não faz diferença nos resultados da destilação. Nosso trabalho representa um passo adiante na compreensão da dinâmica de treinamento da destilação de raciocínio de código além da intuição.
Os Modelos de Linguagem de Grande Escala (LLMs) se destacam em muitas tarefas de PLN, mas ainda são propensos a alucinações, o que limita a confiança em aplicações do mundo real. Apresentamos o HalluGuard, um Modelo de Raciocínio Pequeno (SRM) com 4 bilhões de parâmetros, projetado para mitigar alucinações na Geração Aumentada por Recuperação (RAG). O HalluGuard classifica pares de documento-afirmação como fundamentados ou alucinados e produz justificativas baseadas em evidências para transparência. Nossa abordagem combina (i) um conjunto de dados sintético agnóstico a domínios, derivado do FineWeb e refinado por meio de curadoria em múltiplos estágios e reformulação de dados, (ii) afirmações sintéticas fundamentadas e alucinadas, e (iii) ajuste fino baseado em preferências com Otimização de Preferência por Razão de Chances para destilar o raciocínio de modelos grandes em uma arquitetura menor. No subconjunto RAGTruth do benchmark LLM-AggreFact, o HalluGuard alcança 84,0% de acurácia balanceada (BAcc), rivalizando com modelos especializados, como MiniCheck (7B; 84,0%) e Granite Guardian 3.3 (8B; 82,2%), enquanto utiliza aproximadamente metade dos parâmetros. No benchmark completo, ele atinge 75,7% de BAcc, equiparando-se a LLMs de propósito geral maiores, como GPT-4o (75,9%). Liberaremos o HalluGuard e os conjuntos de dados sob a licença Apache 2.0 após a aceitação.