Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos o Apriel-1.5-15B-Thinker, um modelo multimodal de raciocínio com 15 bilhões de parâmetros e pesos abertos, que alcança desempenho de ponta por meio de um design de treinamento cuidadoso, em vez de escala massiva. Partindo do Pixtral-12B, aplicamos uma metodologia progressiva em três estágios: (1) escalonamento de profundidade para expandir a capacidade de raciocínio sem pré-treinamento do zero, (2) pré-treinamento contínuo em etapas que primeiro desenvolve a compreensão básica de texto e visão, e depois aprimora o raciocínio visual por meio de geração direcionada de dados sintéticos, abordando estrutura espacial, compreensão composicional e percepção detalhada, e (3) ajuste fino supervisionado de alta qualidade apenas com texto, utilizando pares de instrução-resposta curados com traços explícitos de raciocínio abrangendo matemática, programação, ciência e uso de ferramentas. Notavelmente, nosso modelo alcança resultados competitivos sem aprendizado por reforço ou otimização de preferências, isolando a contribuição de nossa abordagem centrada em dados de pré-treinamento contínuo. No Índice de Inteligência Artificial da Artificial Analysis, o Apriel-1.5-15B-Thinker atinge uma pontuação de 52, igualando o DeepSeek-R1-0528, apesar de exigir significativamente menos recursos computacionais. Em dez benchmarks de imagem, seu desempenho está, em média, a cinco pontos do Gemini-2.5-Flash e do Claude Sonnet-3.7, uma conquista importante para um modelo operando dentro das restrições de implantação em GPU única. Nossos resultados demonstram que um design cuidadoso durante o treinamento pode reduzir lacunas substanciais de capacidade sem escala massiva, tornando o raciocínio multimodal de ponta acessível a organizações com infraestrutura limitada. Disponibilizamos o checkpoint do modelo, todas as receitas de treinamento e protocolos de avaliação sob a licença MIT para avançar a pesquisa de código aberto.
Modelos de raciocínio em larga escala (LRMs) "pensam" gerando cadeias de pensamento estruturadas (CoT) antes de produzir uma resposta final, mas ainda carecem da capacidade de raciocinar criticamente sobre o alinhamento de segurança e são facilmente tendenciosos quando uma premissa falha é injetada em seu processo de pensamento. Propomos o RECAP (Alinhamento de Segurança Robusto via Preenchimento Contrário Alinhado), um método de aprendizado por reforço (RL) pós-treinamento que ensina explicitamente os modelos a substituir trajetórias de raciocínio falhas e redirecionar para respostas seguras e úteis. O RECAP é treinado com uma mistura de preenchimentos de CoT contrários alinhados gerados sinteticamente e prompts padrão, não requer custos adicionais de treinamento ou modificações além do aprendizado por reforço com feedback humano (RLHF) tradicional, e melhora substancialmente a segurança e a robustez contra jailbreaks, reduz a recusa excessiva e preserva a capacidade central de raciocínio — tudo isso mantendo o orçamento de tokens de inferência. Análises extensas mostram que modelos treinados com RECAP engajam-se em autorreflexão com mais frequência e permanecem robustos sob ataques adaptativos, preservando a segurança mesmo após tentativas repetidas de sobrepor seu raciocínio.
Os tokens visuais consomem recursos computacionais substanciais em modelos grandes multimodais (MLLMs), comprometendo significativamente sua eficiência. Trabalhos recentes tentaram melhorar a eficiência comprimindo tokens visuais durante o treinamento, seja por meio de modificações nos componentes do modelo ou pela introdução de parâmetros adicionais. No entanto, eles frequentemente negligenciam o aumento da dificuldade de aprendizado causado por tal compressão, já que o espaço de parâmetros do modelo luta para se adaptar rapidamente às perturbações significativas no espaço de características induzidas pela compressão de tokens. Neste trabalho, propomos desenvolver MLLMs Eficientes via Distilação Progressiva de Consistência (EPIC), uma estrutura de aprendizado progressivo. Especificamente, ao decompor as perturbações no espaço de características introduzidas pela compressão de tokens ao longo das dimensões token-wise e layer-wise, introduzimos a distilação de consistência de tokens e a distilação de consistência de camadas, respectivamente, visando reduzir a dificuldade de treinamento ao aproveitar a orientação de um modelo professor e seguir uma trajetória de aprendizado progressiva. Experimentos extensivos demonstram a eficácia superior, robustez e capacidades de generalização da nossa estrutura proposta.
A pesquisa profunda revolucionou a análise de dados, mas os cientistas de dados ainda dedicam um tempo considerável à criação manual de visualizações, destacando a necessidade de uma automação robusta a partir de consultas em linguagem natural. No entanto, os sistemas atuais enfrentam dificuldades com conjuntos de dados complexos que contêm múltiplos arquivos e refinamentos iterativos. As abordagens existentes, incluindo sistemas simples de agente único ou multiagente, frequentemente simplificam demais a tarefa, focando na análise inicial da consulta enquanto falham em gerenciar de forma robusta a complexidade dos dados, erros de código ou a qualidade final da visualização. Neste artigo, reformulamos esse desafio como um problema colaborativo multiagente. Introduzimos o CoDA, um sistema multiagente que emprega agentes de LLM especializados para análise de metadados, planejamento de tarefas, geração de código e autorreflexão. Formalizamos esse pipeline, demonstrando como a análise focada em metadados contorna os limites de tokens e o refinamento orientado pela qualidade garante robustez. Avaliações extensivas mostram que o CoDA alcança ganhos substanciais na pontuação geral, superando as linhas de base competitivas em até 41,5%. Este trabalho demonstra que o futuro da automação de visualizações não está na geração isolada de código, mas em fluxos de trabalho agentivos integrados e colaborativos.
Modelos de Linguagem de Fala Conversacional (SLMs, na sigla em inglês) estão surgindo como um paradigma promissor para interações de fala em tempo real. No entanto, sua capacidade de lidar com dinâmicas temporais, incluindo a habilidade de gerenciar tempo, ritmo e fala simultânea, permanece um desafio crítico e não avaliado para a fluência conversacional. Para abordar essa lacuna, introduzimos o Game-Time Benchmark, um framework para avaliar sistematicamente essas capacidades temporais. Inspirado em como os humanos aprendem uma língua por meio de atividades linguísticas, o Game-Time consiste em tarefas básicas de seguir instruções e tarefas avançadas com restrições temporais, como aderência ao ritmo e respostas sincronizadas. Nossa avaliação de diversas arquiteturas de SLMs revela uma clara disparidade de desempenho: enquanto modelos state-of-the-art lidam bem com tarefas básicas, muitos sistemas contemporâneos ainda lutam com o seguimento fundamental de instruções. Mais criticamente, quase todos os modelos degradam substancialmente sob restrições temporais, expondo fraquezas persistentes em consciência temporal e interação full-duplex. O Game-Time Benchmark fornece uma base para orientar pesquisas futuras em direção a uma IA conversacional mais consciente do tempo. Demonstrações e conjuntos de dados estão disponíveis em nosso site do projeto: https://ga642381.github.io/Game-Time.
Os recentes formatos de ponto flutuante de 4 bits com microescalonamento acelerado por hardware, como MXFP4 e NVFP4, suportados em GPUs da NVIDIA e AMD, prometem revolucionar a inferência de modelos de linguagem de grande escala (LLMs). No entanto, seus benefícios práticos ainda não foram comprovados. Apresentamos o primeiro estudo abrangente de MXFP4 e NVFP4 para quantização pós-treinamento, revelando lacunas entre suas promessas e o desempenho no mundo real. Nossa análise mostra que os métodos state-of-the-art enfrentam dificuldades com FP4, devido a dois problemas principais: (1) o pequeno tamanho de grupo do NVFP4 neutraliza comprovadamente as técnicas tradicionais de mitigação de outliers; (2) a quantização de escala de potência de dois do MXFP4 degrada severamente a precisão devido ao alto erro induzido. Para preencher essa lacuna, introduzimos o Micro-Rotated-GPTQ (MR-GPTQ), uma variante do clássico algoritmo de quantização GPTQ que adapta o processo de quantização às propriedades únicas do FP4, utilizando transformadas de Hadamard em blocos e otimizações específicas para o formato. Apoiamos nossa proposta com um conjunto de kernels de GPU de alto desempenho que habilitam o formato MR-GPTQ com sobrecarga insignificante, por meio da fusão de rotação nos pesos e do cálculo rápido online das ativações. Isso resulta em acelerações em relação ao FP16 de até 3,6x por camada e 2,2x de ponta a ponta no NVIDIA B200, e de 6x por camada e 4x de ponta a ponta no RTX5090. Nossa extensa avaliação empírica demonstra que o MR-GPTQ iguala ou supera a precisão state-of-the-art, impulsionando significativamente o MXFP4, a ponto de se aproximar do NVFP4. Concluímos que, embora o FP4 não seja uma atualização automática em relação ao INT4, métodos especializados em formatos como o MR-GPTQ podem desbloquear uma nova fronteira de compensações entre precisão e desempenho.
Modelos baseados em difusão para controle robótico, incluindo políticas visão-linguagem-ação (VLA) e visão-ação (VA), demonstraram capacidades significativas. No entanto, seu avanço é limitado pelo alto custo de aquisição de grandes conjuntos de dados de interação. Este trabalho introduz um paradigma alternativo para melhorar o desempenho das políticas sem treinamento adicional do modelo. Surpreendentemente, demonstramos que as políticas compostas podem superar o desempenho de qualquer uma das políticas originais. Nossa contribuição é tripla. Primeiro, estabelecemos uma base teórica mostrando que a composição convexa de escores distribucionais de múltiplos modelos de difusão pode resultar em um objetivo funcional de um passo superior em comparação com qualquer escore individual. Um limite do tipo Gr\"onwall é então usado para mostrar que essa melhoria de um único passo se propaga por trajetórias de geração inteiras, levando a ganhos sistêmicos de desempenho. Segundo, motivados por esses resultados, propomos a Composição Geral de Políticas (GPC), um método sem treinamento que melhora o desempenho combinando os escores distribucionais de múltiplas políticas pré-treinadas por meio de uma combinação convexa e busca em tempo de teste. A GPC é versátil, permitindo a composição plug-and-play de políticas heterogêneas, incluindo modelos VA e VLA, bem como aqueles baseados em difusão ou correspondência de fluxo, independentemente de suas modalidades visuais de entrada. Terceiro, fornecemos uma validação empírica extensa. Experimentos nos benchmarks Robomimic, PushT e RoboTwin, juntamente com avaliações robóticas do mundo real, confirmam que a GPC melhora consistentemente o desempenho e a adaptabilidade em um conjunto diversificado de tarefas. Uma análise adicional de operadores de composição alternativos e estratégias de ponderação oferece insights sobre os mecanismos subjacentes ao sucesso da GPC. Esses resultados estabelecem a GPC como um método simples, porém eficaz, para melhorar o desempenho de controle aproveitando políticas existentes.
Os avanços recentes na autoaprimoramento de Modelos de Linguagem de Grande Escala (LLMs, na sigla em inglês) têm aprimorado de forma eficiente as capacidades dos modelos sem aumentar significativamente os custos, especialmente em termos de esforço humano. Embora essa área ainda seja relativamente nova, sua extensão para o domínio multimodal apresenta um potencial imenso para aproveitar fontes de dados diversificadas e desenvolver modelos autoaprimorados mais gerais. Este estudo é o primeiro a fornecer uma visão abrangente do autoaprimoramento em Modelos de Linguagem Multimodais (MLLMs, na sigla em inglês). Apresentamos uma visão estruturada da literatura atual e discutimos métodos a partir de três perspectivas: 1) coleta de dados, 2) organização de dados e 3) otimização de modelos, para facilitar o desenvolvimento adicional do autoaprimoramento em MLLMs. Também incluímos avaliações comumente utilizadas e aplicações subsequentes. Por fim, concluímos delineando desafios em aberto e direções futuras de pesquisa.
Autoencoders esparsos (SAEs) são uma técnica para decomposição esparsa de ativações de redes neurais em características interpretáveis por humanos. No entanto, os SAEs atuais sofrem com absorção de características, onde características especializadas capturam instâncias de características gerais, criando lacunas de representação, e composição de características, onde características independentes se fundem em representações compostas. Neste trabalho, introduzimos o OrtSAE (Orthogonal SAE), uma nova abordagem que visa mitigar esses problemas ao impor ortogonalidade entre as características aprendidas. Ao implementar um novo procedimento de treinamento que penaliza alta similaridade de cosseno entre pares de características do SAE, o OrtSAE promove o desenvolvimento de características desembaraçadas enquanto escala linearmente com o tamanho do SAE, evitando sobrecarga computacional significativa. Treinamos o OrtSAE em diferentes modelos e camadas e o comparamos com outros métodos. Descobrimos que o OrtSAE descobre 9% mais características distintas, reduz a absorção de características (em 65%) e a composição (em 15%), melhora o desempenho na remoção de correlações espúrias (+6%) e alcança desempenho equivalente em outras tarefas subsequentes em comparação com SAEs tradicionais.
Os LLMs emergiram como ferramentas poderosas para interpretar dados multimodais. Na medicina, eles têm um potencial particular para sintetizar grandes volumes de informações clínicas em insights acionáveis e aplicações de saúde digital. No entanto, uma grande limitação permanece: sua incapacidade de lidar com séries temporais. Para superar essa lacuna, apresentamos o OpenTSLM, uma família de Modelos de Linguagem para Séries Temporais (TSLMs) criada ao integrar séries temporais como uma modalidade nativa em LLMs pré-treinados, permitindo o raciocínio sobre múltiplas séries temporais de qualquer comprimento. Investigamos duas arquiteturas para o OpenTSLM. A primeira, OpenTSLM-SoftPrompt, modela séries temporais implicitamente ao concatenar tokens de séries temporais aprendíveis com tokens de texto por meio de soft prompting. Embora seja eficiente em termos de parâmetros, nossa hipótese é que a modelagem explícita de séries temporais escala melhor e supera abordagens implícitas. Assim, introduzimos o OpenTSLM-Flamingo, que integra séries temporais com texto por meio de cross-attention. Avaliamos ambas as variantes em relação a baselines que tratam séries temporais como tokens de texto ou gráficos, em uma série de tarefas de raciocínio Chain-of-Thought (CoT) envolvendo texto e séries temporais. Introduzimos três conjuntos de dados: HAR-CoT, Sleep-CoT e ECG-QA-CoT. Em todos eles, os modelos OpenTSLM superam as baselines, atingindo 69,9 F1 na classificação de estágios do sono e 65,4 no HAR, em comparação com 9,05 e 52,2 para modelos de texto finetunados. Notavelmente, até mesmo modelos OpenTSLM com 1 bilhão de parâmetros superam o GPT-4o (15,47 e 2,95). O OpenTSLM-Flamingo iguala o desempenho do OpenTSLM-SoftPrompt e supera em sequências mais longas, mantendo requisitos de memória estáveis. Em contraste, o SoftPrompt cresce exponencialmente em memória com o comprimento da sequência, exigindo cerca de 110 GB em comparação com 40 GB de VRAM ao treinar no ECG-QA com LLaMA-3B. Avaliações de especialistas por clínicos revelam fortes capacidades de raciocínio exibidas pelos OpenTSLMs no ECG-QA. Para facilitar pesquisas futuras, disponibilizamos todo o código, conjuntos de dados e modelos em código aberto.
Avanços nos Modelos de Linguagem de Grande Escala (LLMs) possibilitaram uma nova classe de agentes auto-evolutivos que melhoram autonomamente por meio da interação com o ambiente, demonstrando capacidades robustas. No entanto, a auto-evolução também introduz novos riscos negligenciados pelas pesquisas atuais de segurança. Neste trabalho, estudamos o caso em que a auto-evolução de um agente se desvia de maneiras não intencionais, levando a resultados indesejáveis ou até mesmo prejudiciais. Referimo-nos a isso como **Misevolução**. Para fornecer uma investigação sistemática, avaliamos a misevolução ao longo de quatro caminhos evolutivos principais: modelo, memória, ferramenta e fluxo de trabalho. Nossas descobertas empíricas revelam que a misevolução é um risco generalizado, afetando agentes construídos até mesmo sobre LLMs de ponta (por exemplo, Gemini-2.5-Pro). Diferentes riscos emergentes são observados no processo de auto-evolução, como a degradação do alinhamento de segurança após o acúmulo de memória ou a introdução não intencional de vulnerabilidades na criação e reutilização de ferramentas. Até onde sabemos, este é o primeiro estudo a conceituar sistematicamente a misevolução e fornecer evidências empíricas de sua ocorrência, destacando a necessidade urgente de novos paradigmas de segurança para agentes auto-evolutivos. Por fim, discutimos possíveis estratégias de mitigação para inspirar pesquisas futuras na construção de agentes auto-evolutivos mais seguros e confiáveis. Nosso código e dados estão disponíveis em https://github.com/ShaoShuai0605/Misevolution. **Aviso:** este artigo inclui exemplos que podem ser ofensivos ou prejudiciais.
Avanços recentes em modelos de texto para imagem (T2I) baseados em difusão têm levado a um sucesso notável na geração de imagens de alta qualidade a partir de prompts textuais. No entanto, garantir um alinhamento preciso entre o texto e a imagem gerada continua sendo um desafio significativo para os modelos de difusão state-of-the-art. Para abordar isso, estudos existentes empregam aprendizado por reforço com feedback humano (RLHF) para alinhar as saídas T2I com as preferências humanas. Esses métodos, no entanto, dependem diretamente de dados de preferência de imagens pareadas ou exigem uma função de recompensa aprendida, ambas as quais dependem fortemente de anotações humanas caras e de alta qualidade, enfrentando, assim, limitações de escalabilidade. Neste trabalho, introduzimos o Text Preference Optimization (TPO), um framework que permite o alinhamento "free-lunch" de modelos T2I, alcançando o alinhamento sem a necessidade de dados de preferência de imagens pareadas. O TPO funciona treinando o modelo para preferir prompts correspondentes em vez de prompts não correspondentes, que são construídos perturbando legendas originais usando um modelo de linguagem grande. Nosso framework é geral e compatível com algoritmos baseados em preferência existentes. Estendemos tanto o DPO quanto o KTO para nossa configuração, resultando em TDPO e TKTO. Avaliações quantitativas e qualitativas em vários benchmarks mostram que nossos métodos superam consistentemente suas contrapartes originais, entregando melhores pontuações de preferência humana e um alinhamento texto-imagem aprimorado. Nosso código de código aberto está disponível em https://github.com/DSL-Lab/T2I-Free-Lunch-Alignment.
Os Modelos Pequenos de Visão e Linguagem (VLMs) oferecem uma alternativa computacionalmente eficiente aos modelos maiores, em detrimento de capacidades de generalização e desempenho em tarefas subsequentes mais limitados. Essas deficiências poderiam ser abordadas por técnicas de escalonamento em tempo de teste, mas os métodos existentes são tipicamente demandantes em termos computacionais, contradizendo os objetivos de design eficiente em recursos dos modelos pequenos. Para superar essas limitações, propomos duas estratégias novas e eficientes de escalonamento em tempo de teste que aproveitam as características internas do modelo em vez de supervisão externa: (i) Aumentação em Tempo de Teste (TTAug), que gera múltiplas entradas aumentadas e agrega saídas no nível de token sem atualizações de parâmetros, e (ii) Adaptação em Tempo de Teste (TTAdapt), que adapta os parâmetros do modelo durante a inferência usando pseudorrótulos baseados em consenso provenientes do TTAug. Por meio de experimentos extensos em nove benchmarks, demonstramos melhorias consistentes de desempenho enquanto mantemos a eficiência computacional adequada para ambientes com recursos limitados. A generalidade da nossa abordagem é demonstrada tanto dentro de modelos em diferentes escalas quanto em diferentes VLMs sem ajustes adicionais.
A reconstrução de cenas 3D e a síntese de novas visões têm registrado progressos rápidos nos últimos anos. Os Neural Radiance Fields demonstraram que campos de radiação volumétricos contínuos podem alcançar síntese de imagens de alta qualidade, mas seus longos tempos de treinamento e renderização limitam a praticidade. O 3D Gaussian Splatting (3DGS) abordou essas questões representando cenas com milhões de Gaussianas, permitindo renderização em tempo real e otimização rápida. No entanto, as primitivas Gaussianas não são nativamente compatíveis com os pipelines baseados em malhas usados em headsets de realidade virtual e aplicações gráficas em tempo real. As soluções existentes tentam converter Gaussianas em malhas por meio de pós-processamento ou pipelines de dois estágios, o que aumenta a complexidade e degrada a qualidade visual. Neste trabalho, apresentamos o Triangle Splatting+, que otimiza diretamente triângulos, a primitiva fundamental da computação gráfica, dentro de um framework de splatting diferenciável. Formulamos a parametrização de triângulos para permitir conectividade por meio de vértices compartilhados e projetamos uma estratégia de treinamento que impõe triângulos opacos. A saída final é imediatamente utilizável em motores gráficos padrão sem pós-processamento. Experimentos nos conjuntos de dados Mip-NeRF360 e Tanks & Temples mostram que o Triangle Splatting+ alcança desempenho de ponta na síntese de novas visões baseadas em malhas. Nosso método supera abordagens anteriores de splatting em fidelidade visual, mantendo-se eficiente e rápido no treinamento. Além disso, as malhas semi-conectadas resultantes suportam aplicações subsequentes, como simulação baseada em física ou passeios interativos. A página do projeto está disponível em https://trianglesplatting2.github.io/trianglesplatting2/.
O pós-treinamento de grandes modelos de linguagem (LLMs) é limitado pelo alto custo de adquirir novos conhecimentos ou corrigir erros e pelos efeitos colaterais indesejados que frequentemente surgem com o retreinamento. Para abordar esses problemas, introduzimos o REPAIR (Edição Robusta via Intervenção Progressiva Adaptativa e Reintegração), um framework de edição contínua projetado para suportar atualizações precisas e de baixo custo do modelo, preservando ao mesmo tempo o conhecimento não-alvo. O REPAIR mitiga a instabilidade e os conflitos de edições sequenciais em larga escala por meio de um mecanismo de feedback em circuito fechado, acoplado a um gerenciamento dinâmico de memória. Além disso, ao incorporar fusão frequente de conhecimento e impor fortes proteções de localidade, o REPAIR aborda efetivamente as deficiências das abordagens tradicionais agnósticas à distribuição, que frequentemente ignoram efeitos indesejados em cascata. Nossos experimentos demonstram que o REPAIR aumenta a precisão da edição em 10%-30% em várias famílias de modelos e reduz significativamente o esquecimento de conhecimento. Este trabalho introduz um framework robusto para o desenvolvimento de LLMs confiáveis, escaláveis e em constante evolução.
Agentes web alimentados por grandes modelos de linguagem (LLMs) precisam processar observações extensas de páginas da web para cumprir os objetivos dos usuários; essas páginas frequentemente excedem dezenas de milhares de tokens. Isso satura os limites de contexto e aumenta o custo computacional do processamento; além disso, processar páginas completas expõe os agentes a riscos de segurança, como injeção de prompt. As estratégias de poda existentes ou descartam conteúdo relevante ou retêm contexto irrelevante, levando a previsões de ação subótimas. Apresentamos o FocusAgent, uma abordagem simples, porém eficaz, que utiliza um retriever leve baseado em LLM para extrair as linhas mais relevantes de observações da árvore de acessibilidade (AxTree), orientadas pelos objetivos da tarefa. Ao podar conteúdo ruidoso e irrelevante, o FocusAgent permite raciocínio eficiente enquanto reduz a vulnerabilidade a ataques de injeção. Experimentos nos benchmarks WorkArena e WebArena mostram que o FocusAgent iguala o desempenho de baselines fortes, enquanto reduz o tamanho da observação em mais de 50%. Além disso, uma variante do FocusAgent reduz significativamente a taxa de sucesso de ataques de injeção de prompt, incluindo ataques de banners e pop-ups, mantendo o desempenho de sucesso da tarefa em cenários livres de ataques. Nossos resultados destacam que a recuperação direcionada baseada em LLM é uma estratégia prática e robusta para construir agentes web que são eficientes, eficazes e seguros.
A redação de surveys acadêmicos, que condensa vasta literatura em uma narrativa coerente e perspicaz, continua sendo uma tarefa intensiva em mão de obra e intelectualmente exigente. Embora abordagens recentes, como agentes de DeepResearch gerais e métodos especializados em surveys, possam gerar surveys automaticamente (conhecidos como LLM4Survey), suas saídas frequentemente ficam aquém dos padrões humanos e falta um benchmark rigoroso e alinhado ao leitor para revelar completamente suas deficiências. Para preencher essa lacuna, propomos um framework de avaliação detalhado e orientado por quizzes, o SurveyBench, que apresenta (1) tópicos típicos de surveys extraídos de 11.343 artigos recentes do arXiv e 4.947 surveys de alta qualidade correspondentes; (2) uma hierarquia de métricas multifacetadas que avalia a qualidade do esboço (por exemplo, amplitude de cobertura, coerência lógica), a qualidade do conteúdo (por exemplo, granularidade de síntese, clareza dos insights) e a riqueza não textual; e (3) um protocolo de avaliação de modo duplo que inclui testes de capacidade de resposta baseados em conteúdo e em quizzes, explicitamente alinhados com as necessidades informacionais dos leitores. Os resultados mostram que o SurveyBench desafia efetivamente as abordagens existentes de LLM4Survey (por exemplo, em média 21% inferior aos humanos na avaliação baseada em conteúdo).
Os impressionantes ganhos de desempenho dos modelos de linguagem modernos atualmente dependem da escalagem de parâmetros: modelos maiores armazenam mais conhecimento do mundo e raciocinam melhor. No entanto, comprimir todo o conhecimento do mundo em parâmetros é desnecessário, pois apenas uma fração é usada por prompt, e impraticável para dispositivos de borda com memória e capacidade de computação limitadas no momento da inferência. Abordamos essa limitação com uma arquitetura aumentada por memória e uma estratégia de pré-treinamento alinhada com os paradigmas de hardware existentes. Introduzimos pequenos modelos de linguagem que acessam grandes bancos de memória paramétricos hierárquicos que codificam conhecimento do mundo. Durante o pré-treinamento e a inferência, buscamos um pequeno bloco de memória dependente do contexto e o adicionamos ao modelo. Nosso pré-treinamento aprende a armazenar conhecimento de cauda longa nos parâmetros da memória, enquanto o pequeno modelo de linguagem atua como uma âncora capturando conhecimento comum e habilidades gerais de raciocínio. Através de experimentos em escala de trilhões de tokens, mostramos ganhos significativos: um modelo de 160M parâmetros aumentado com uma memória de 18M parâmetros buscada de um banco de memória de 4,6B obtém desempenho comparável a um modelo regular com mais que o dobro dos parâmetros. Através de extensos experimentos, estudamos o tipo e tamanho ótimos de memórias paramétricas em transformadores, escalando-as para mais de 21B parâmetros. Descobrimos que as memórias hierárquicas de feed-forward propostas funcionam de forma robusta em diferentes arquiteturas de transformadores, sejam adicionadas durante o pré-treinamento ou posteriormente.
Modelos de difusão discreta padrão tratam todos os estados não observados de forma idêntica, mapeando-os para um token de absorção [MASK]. Isso cria um "vazio de informação" onde a informação semântica que poderia ser inferida a partir de tokens não mascarados é perdida entre as etapas de remoção de ruído. Introduzimos o Continuously Augmented Discrete Diffusion (CADD), uma estrutura que amplia o espaço de estados discretos com uma difusão emparelhada em um espaço latente contínuo. Isso resulta em estados gradualmente corrompidos e graduados, nos quais tokens mascarados são representados por vetores latentes ruidosos, porém informativos, em vez de "vazios de informação" colapsados. A cada etapa reversa, o CADD pode aproveitar o latente contínuo como uma dica semântica para guiar a remoção de ruído discreta. O design é limpo e compatível com o treinamento existente de difusão discreta. No momento da amostragem, a força e a escolha do estimador para o vetor latente contínuo permitem uma troca controlada entre comportamentos de cobertura de modos (gerando saídas diversas) e busca de modos (gerando saídas contextualmente precisas). Empiricamente, demonstramos que o CADD melhora a qualidade gerativa em relação à difusão baseada em máscara em geração de texto, síntese de imagens e modelagem de código, com ganhos consistentes em métricas qualitativas e quantitativas em comparação com fortes baselines discretas.
Estudamos o que realmente funciona e o que não funciona para treinar modelos de linguagem de grande escala como agentes por meio de aprendizado por reforço de múltiplas interações. Apesar do rápido progresso, os frameworks e definições existentes são fragmentados, e não há uma formulação ou análise sistemática de quais escolhas de design são importantes em diferentes tarefas. Abordamos essa lacuna primeiro dividindo o espaço de design em três pilares inter-relacionados — ambiente, recompensa e política — e derivamos empiricamente uma receita para treinar agentes de LLM em domínios textuais situados. Em particular, testamos TextWorld e ALFWorld, domínios populares para testar raciocínio situado e incorporado, bem como SWE-Gym para tarefas mais voltadas à engenharia de software. (i) Para o ambiente, analisamos os impactos da complexidade da tarefa em termos de tamanhos dos espaços de estado e ação, bem como do comprimento da solução ótima, descobrindo que até mesmo ambientes simples dentro de um domínio podem fornecer sinais sobre o quão bem um agente pode generalizar para tarefas mais complexas. (ii) Para a recompensa, realizamos uma ablação da escassez relativa de recompensas, observando que, embora recompensas densas em nível de interação acelerem o treinamento, o desempenho e a estabilidade dependem fortemente da escolha do algoritmo de RL. (iii) E para a política do agente, exploramos a interação entre a escassez de recompensas e métodos de gradiente de política tendenciosos (PPO, GRPO) e não tendenciosos (RLOO), além de mostrar como encontrar a proporção ideal entre Ajuste Fino Supervisionado (SFT) e treinamento de RL, dado um orçamento fixo. Destilamos essas descobertas em uma receita de treinamento que orienta o co-design entre os três pilares, facilitando pesquisas e esforços práticos em RL agentico de múltiplas interações. Código: https://github.com/pearls-lab/meow-tea-taro
Embora os recentes avanços em modelos de linguagem de grande escala (LLMs, na sigla em inglês) tenham permitido com sucesso a criação de sistemas de recomendação generativos com interações em linguagem natural, seu comportamento de recomendação é limitado, deixando outros componentes mais simples, porém cruciais, como filtragem de metadados ou atributos, subutilizados no sistema. Propomos um sistema de recomendação musical baseado em LLM com chamadas de ferramentas para servir como um pipeline unificado de recuperação e rerranqueamento. Nosso sistema posiciona um LLM como um sistema de recomendação de ponta a ponta que interpreta a intenção do usuário, planeja invocações de ferramentas e orquestra componentes especializados: filtros booleanos (SQL), recuperação esparsa (BM25), recuperação densa (similaridade de embeddings) e recuperação generativa (IDs semânticos). Por meio do planejamento de ferramentas, o sistema prevê quais tipos de ferramentas usar, a ordem de execução e os argumentos necessários para encontrar músicas que correspondam às preferências do usuário, suportando diversas modalidades enquanto integra de forma contínua múltiplos métodos de filtragem de banco de dados. Demonstramos que essa estrutura unificada de chamadas de ferramentas alcança desempenho competitivo em diversos cenários de recomendação ao empregar seletivamente métodos de recuperação apropriados com base nas consultas dos usuários, vislumbrando um novo paradigma para sistemas de recomendação musical conversacionais.
Distúrbios da coluna vertebral afetam 619 milhões de pessoas globalmente e são uma das principais causas de incapacidade, ainda assim o diagnóstico assistido por IA permanece limitado pela falta de conjuntos de dados multimodais e conscientes do nível vertebral. A tomada de decisão clínica para distúrbios da coluna requer raciocínio sofisticado através de raios-X, tomografias computadorizadas (CT) e ressonâncias magnéticas (MRI) em níveis vertebrais específicos. No entanto, o progresso tem sido limitado pela ausência de dados de instrução rastreáveis e clinicamente fundamentados, além de benchmarks padronizados e específicos para a coluna. Para resolver isso, apresentamos o SpineMed, um ecossistema co-desenvolvido com cirurgiões de coluna em atividade. Ele inclui o SpineMed-450k, o primeiro conjunto de dados em grande escala explicitamente projetado para raciocínio em nível vertebral através de modalidades de imagem, com mais de 450.000 instâncias de instrução, e o SpineBench, uma estrutura de avaliação clinicamente fundamentada. O SpineMed-450k é curado a partir de diversas fontes, incluindo livros didáticos, diretrizes, conjuntos de dados abertos e aproximadamente 1.000 casos hospitalares anonimizados, utilizando um pipeline com clínicos no processo e um método de geração em duas etapas com modelos de linguagem de grande escala (LLM) (rascunho e revisão) para garantir dados de alta qualidade e rastreáveis para perguntas e respostas, consultas multiturno e geração de relatórios. O SpineBench avalia modelos em eixos clinicamente relevantes, incluindo identificação de nível, avaliação de patologias e planejamento cirúrgico. Nossa avaliação abrangente de vários modelos avançados recentes de visão e linguagem de grande escala (LVLMs) no SpineBench revela fraquezas sistemáticas no raciocínio detalhado e específico por nível. Em contraste, nosso modelo ajustado no SpineMed-450k demonstra melhorias consistentes e significativas em todas as tarefas. Avaliações clínicas confirmam a clareza diagnóstica e a utilidade prática das saídas do nosso modelo.
O desenvolvimento atual de grandes modelos de linguagem (LLMs) trata a resolução de tarefas e o alinhamento de preferências como desafios separados, otimizando primeiro para a correção objetiva e, em seguida, para o alinhamento com as preferências humanas agregadas. Esse paradigma falha em aplicações voltadas para humanos, onde resolver um problema corretamente é insuficiente se a resposta não corresponder às necessidades do usuário. Esse desafio se intensifica em cenários de just-in-time, onde não há histórico prévio de interação com o usuário devido a condições de cold-start ou restrições de privacidade. Os LLMs precisam identificar o que não sabem sobre as preferências do usuário, elicitar estrategicamente os valores de preferência por meio de questionamentos e, então, adaptar seus processos de raciocínio e respostas de acordo — uma cadeia complexa de processos cognitivos que denominamos raciocínio personalizado. Apresentamos o PREFDISCO, uma metodologia de avaliação que transforma benchmarks estáticos em tarefas interativas de personalização usando personas psicologicamente fundamentadas com preferências esparsas. Nosso framework cria cenários onde perguntas idênticas exigem cadeias de raciocínio diferentes dependendo do contexto do usuário, já que as abordagens de explicação ideais variam conforme a expertise e as preferências individuais, mantendo a precisão factual. A avaliação de 21 modelos de ponta em 10 tarefas revela que 29,0% das tentativas ingênuas de personalização produzem um alinhamento de preferências pior do que respostas genéricas, embora respostas genéricas também falhem em atender efetivamente às necessidades individuais dos usuários. Esses achados sugerem que o raciocínio personalizado requer desenvolvimento dedicado, em vez de surgir naturalmente. O PREFDISCO estabelece o raciocínio personalizado como uma fronteira de pesquisa mensurável e revela limitações fundamentais nas capacidades interativas dos LLMs atuais, fornecendo uma base para o desenvolvimento de sistemas que podem se adaptar a usuários individuais em educação, saúde e domínios técnicos onde a personalização é crítica.
Desde o lançamento do Deepseek-R1, o aprendizado por reforço com recompensas verificáveis (RLVR) tornou-se uma abordagem central para o treinamento de grandes modelos de linguagem (LLMs) em tarefas de raciocínio. Trabalhos recentes têm se concentrado principalmente em modificar funções de perda para tornar o RLVR mais eficiente e eficaz. Neste artigo, motivados por estudos sobre "overthinking" em LLMs, propomos o Length-aware Sampling for Policy Optimization (LSPO), um novo algoritmo meta-RLVR que seleciona dinamicamente os dados de treinamento em cada etapa com base no comprimento médio da resposta. Avaliamos o LSPO em vários modelos base e conjuntos de dados, demonstrando que ele melhora consistentemente a eficácia do aprendizado. Além disso, realizamos um estudo detalhado de ablação para examinar formas alternativas de incorporar sinais de comprimento na amostragem dinâmica, oferecendo insights adicionais e destacando direções promissoras para pesquisas futuras.
A fundamentação de GUI, a tarefa de mapear instruções em linguagem natural para coordenadas de pixels, é crucial para agentes autônomos, mas ainda é desafiadora para os modelos de linguagem visual (VLMs) atuais. O principal gargalo é o mapeamento confiável de patches para pixels, que falha ao extrapolar para telas de alta resolução não vistas durante o treinamento. As abordagens atuais geram coordenadas como tokens de texto diretamente a partir de características visuais, forçando o modelo a inferir implicitamente mapeamentos complexos de posição para pixels; como resultado, a precisão diminui e as falhas se multiplicam em novas resoluções. Abordamos isso com duas inovações complementares. Primeiro, os tokens RULER servem como marcadores explícitos de coordenadas, permitindo que o modelo referencie posições de forma semelhante a linhas de grade em um mapa e ajuste, em vez de gerar coordenadas do zero. Segundo, o Interleaved MRoPE (I-MRoPE) melhora a codificação espacial ao garantir que as dimensões de largura e altura sejam representadas igualmente, abordando a assimetria dos esquemas posicionais padrão. Experimentos no ScreenSpot, ScreenSpot-V2 e ScreenSpot-Pro mostram ganhos consistentes na precisão de fundamentação, com as maiores melhorias em interfaces de alta resolução. Ao fornecer orientação espacial explícita em vez de depender de aprendizado implícito, nossa abordagem permite uma automação de GUI mais confiável em diversas resoluções e plataformas.
Diversos ataques de injeção de prompt foram propostos contra agentes web. Ao mesmo tempo, vários métodos foram desenvolvidos para detectar ataques gerais de injeção de prompt, mas nenhum foi sistematicamente avaliado para agentes web. Neste trabalho, preenchemos essa lacuna apresentando o primeiro estudo de benchmark abrangente sobre a detecção de ataques de injeção de prompt direcionados a agentes web. Começamos introduzindo uma categorização detalhada desses ataques com base no modelo de ameaça. Em seguida, construímos conjuntos de dados contendo amostras maliciosas e benignas: segmentos de texto maliciosos gerados por diferentes ataques, segmentos de texto benignos de quatro categorias, imagens maliciosas produzidas por ataques e imagens benignas de duas categorias. Depois, sistematizamos métodos de detecção baseados em texto e em imagem. Por fim, avaliamos seu desempenho em vários cenários. Nossas principais descobertas mostram que, embora alguns detectores possam identificar ataques que dependem de instruções textuais explícitas ou perturbações visíveis em imagens com precisão moderada a alta, eles falham amplamente contra ataques que omitem instruções explícitas ou empregam perturbações imperceptíveis. Nossos conjuntos de dados e código estão disponíveis em: https://github.com/Norrrrrrr-lyn/WAInjectBench.
Com os modelos de difusão e correspondência de fluxo alcançando desempenho de geração de última geração, o interesse da comunidade agora se voltou para reduzir o tempo de inferência sem sacrificar a qualidade das amostras. Os Modelos de Consistência (CMs), que são treinados para serem consistentes em trajetórias de equações diferenciais ordinárias de fluxo de probabilidade (PF-ODE) ou difusão, permitem amostragem de fluxo ou difusão em uma ou duas etapas. No entanto, os CMs geralmente exigem treinamento prolongado com grandes tamanhos de lote para obter qualidade competitiva nas amostras. Neste artigo, examinamos a dinâmica de treinamento dos CMs próximo à convergência e descobrimos que as tangentes dos CMs -- direções de atualização da saída dos CMs -- são bastante oscilatórias, no sentido de que se movem paralelamente à variedade de dados, e não em direção a ela. Para mitigar as tangentes oscilatórias, propomos uma nova função de perda, chamada distância de características da variedade (MFD), que fornece tangentes alinhadas à variedade que apontam para a variedade de dados. Consequentemente, nosso método -- denominado Alinhe Sua Tangente (AYT) -- pode acelerar o treinamento dos CMs em ordens de magnitude e até superar a métrica de similaridade de patches de imagem perceptual aprendida (LPIPS). Além disso, descobrimos que nossa função de perda permite o treinamento com tamanhos de lote extremamente pequenos sem comprometer a qualidade das amostras. Código: https://github.com/1202kbs/AYT
Os modelos predominantes de geração de Vídeo-para-Áudio (V2A) operam de forma offline, assumindo que uma sequência de vídeo completa ou segmentos de quadros estão disponíveis previamente. Isso limita criticamente seu uso em aplicações interativas, como criação de conteúdo ao vivo e modelos de mundo generativos emergentes. Para abordar essa lacuna, introduzimos a nova tarefa de geração online de V2A em nível de quadro, onde um modelo gera áudio a partir de vídeo de forma autoregressiva, sem acesso a quadros futuros do vídeo. Além disso, propomos o SoundReactor, que, até onde sabemos, é o primeiro framework simples, porém eficaz, explicitamente projetado para essa tarefa. Nosso projeto impõe causalidade de ponta a ponta e visa baixa latência por quadro com sincronização áudio-visual. A espinha dorsal do nosso modelo é um transformador causal apenas de decodificação sobre latentes de áudio contínuos. Para condicionamento visual, ele aproveita características de grade (patch) extraídas da menor variante do codificador visual DINOv2, que são agregadas em um único token por quadro para manter a causalidade e eficiência de ponta a ponta. O modelo é treinado por meio de um pré-treinamento de difusão seguido de ajuste fino de consistência para acelerar a decodificação da cabeça de difusão. Em um benchmark de diversos vídeos de gameplay de títulos AAA, nosso modelo gera com sucesso áudio estéreo de banda completa, semanticamente e temporalmente alinhado e de alta qualidade, validado por avaliações objetivas e humanas. Além disso, nosso modelo alcança baixa latência em nível de forma de onda por quadro (26,3ms com a cabeça NFE=1, 31,5ms com NFE=4) em vídeos de 30FPS, 480p usando um único H100. Amostras de demonstração estão disponíveis em https://koichi-saito-sony.github.io/soundreactor/.
O gradiente descendente tem se mostrado uma técnica poderosa e eficaz para otimização em inúmeras aplicações de aprendizado de máquina. Avanços recentes em neurociência computacional demonstraram que o aprendizado na formulação padrão de otimização por gradiente descendente não é consistente com o aprendizado em sistemas biológicos. Isso abriu caminhos interessantes para a construção de técnicas de aprendizado inspiradas na biologia. Uma dessas abordagens é inspirada na lei de Dale, que afirma que sinapses inibitórias e excitatórias não trocam de papéis durante o processo de aprendizado. O esquema de otimização por gradiente descendente exponencial resultante leva a pesos sinápticos distribuídos de forma log-normal. Curiosamente, a densidade que satisfaz a equação de Fokker-Planck correspondente à equação diferencial estocástica (EDE) com movimento browniano geométrico (MBG) é a densidade log-normal. Aproveitando essa conexão, começamos com a EDE que governa o movimento browniano geométrico e mostramos que a discretização da EDE reversa no tempo correspondente resulta em uma regra de atualização multiplicativa, que, surpreendentemente, coincide com a amostragem equivalente da atualização do gradiente descendente exponencial baseada na lei de Dale. Além disso, propomos um novo formalismo para correspondência de pontuação de denoização multiplicativa, englobando a função de perda proposta por Hyvaerinen para dados não negativos. De fato, dados distribuídos de forma log-normal são positivos, e o formalismo de correspondência de pontuação proposto acaba sendo uma escolha natural. Isso permite o treinamento de modelos baseados em pontuação para dados de imagem e resulta em um novo esquema de atualização multiplicativa para geração de amostras a partir de uma densidade log-normal. Resultados experimentais nos conjuntos de dados MNIST, Fashion MNIST e Kuzushiji demonstram a capacidade gerativa do novo esquema. Até onde sabemos, esta é a primeira instância de um modelo gerativo inspirado na biologia que emprega atualizações multiplicativas, fundamentado no movimento browniano geométrico.
A otimização de modelos de difusão discreta (DDM) com recompensas continua sendo um desafio: o paradigma não autorregressivo torna a amostragem por importância intratável e o rollout complexo, confundindo métodos de aprendizado por reforço, como o Group Relative Policy Optimization (GRPO). Neste estudo, introduzimos o MaskGRPO, a primeira abordagem viável para permitir o aprendizado por reforço multimodal escalável em difusão discreta com amostragem por importância eficaz e adaptações específicas por modalidade. Para isso, primeiro esclarecemos a base teórica para DDMs, o que facilita a construção de um estimador de importância que captura flutuações valiosas de tokens para atualizações de gradiente. Em seguida, ajustamos cuidadosamente o método de rollout para sequências visuais, o que gera completamentos diversos e gradientes de otimização confiáveis. Em benchmarks de raciocínio matemático, codificação e geração visual, o MaskGRPO traz atualizações mais estáveis e eficientes, resultando em um desempenho de raciocínio mais forte e uma qualidade de geração superior. Este estudo estabelece o MaskGRPO como uma abordagem sistemática de otimização de políticas e a primeira maneira prática para difusão visual discretizada.
Modelos generativos de vídeo demonstram capacidades impressionantes de conversão de texto em vídeo, impulsionando a adoção generalizada em muitas aplicações do mundo real. No entanto, assim como os grandes modelos de linguagem (LLMs), os modelos de geração de vídeo tendem a alucinar, produzindo vídeos plausíveis mesmo quando estão factualmente incorretos. Embora a quantificação de incerteza (UQ) de LLMs tenha sido extensivamente estudada em trabalhos anteriores, não existe um método de UQ para modelos de vídeo, o que levanta preocupações críticas de segurança. Até onde sabemos, este artigo representa o primeiro trabalho em direção à quantificação da incerteza de modelos de vídeo. Apresentamos um framework para quantificação de incerteza de modelos generativos de vídeo, consistindo em: (i) uma métrica para avaliar a calibração de modelos de vídeo baseada na estimativa robusta de correlação de postos sem suposições de modelagem rigorosas; (ii) um método de UQ de caixa preta para modelos de vídeo (denominado S-QUBED), que aproveita a modelagem latente para decompor rigorosamente a incerteza preditiva em seus componentes aleatória e epistêmica; e (iii) um conjunto de dados de UQ para facilitar o benchmarking da calibração em modelos de vídeo. Ao condicionar a tarefa de geração no espaço latente, separamos a incerteza decorrente de especificações vagas da tarefa daquela decorrente da falta de conhecimento. Por meio de extensos experimentos em conjuntos de dados de vídeo de referência, demonstramos que o S-QUBED calcula estimativas de incerteza total calibradas que estão negativamente correlacionadas com a precisão da tarefa e efetivamente calcula os componentes aleatório e epistêmico.
A Geração Aumentada por Recuperação (RAG, do inglês Retrieval-Augmented Generation) combina a recuperação de documentos com modelos de linguagem de grande escala (LLMs, do inglês Large Language Models). Embora a escalonamento dos geradores melhore a precisão, também aumenta os custos e limita a capacidade de implantação. Exploramos um eixo ortogonal: ampliar o corpus do recuperador para reduzir a dependência de LLMs grandes. Resultados experimentais mostram que a escalonamento do corpus fortalece consistentemente o RAG e pode frequentemente servir como um substituto para o aumento do tamanho do modelo, embora com retornos decrescentes em escalas maiores. Geradores de pequeno e médio porte emparelhados com corpora maiores frequentemente rivalizam com modelos muito maiores com corpora menores; modelos de médio porte tendem a se beneficiar mais, enquanto modelos muito pequenos ou muito grandes se beneficiam menos. Nossa análise mostra que as melhorias surgem principalmente do aumento da cobertura de passagens que contêm respostas, enquanto a eficiência de utilização permanece praticamente inalterada. Essas descobertas estabelecem uma troca princial entre corpus e gerador: investir em corpora maiores oferece um caminho eficaz para um RAG mais robusto, frequentemente comparável ao aumento do próprio LLM.
Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm alcançado desempenho robusto em benchmarks visuais gerais, mas enfrentam dificuldades em tarefas fora da distribuição (OOD) em domínios especializados, como imagens médicas, onde dados rotulados são limitados e caros. Apresentamos o LEAML, uma estrutura de adaptação eficiente em termos de rótulos que aproveita tanto amostras escassas de VQA rotuladas quanto imagens não rotuladas abundantes. Nossa abordagem gera pares de perguntas-respostas pseudo-relevantes para o domínio a partir de dados não rotulados, utilizando um gerador de QA regularizado por destilação de legendas. De forma crucial, atualizamos seletivamente apenas os neurônios mais relevantes para a tarefa de perguntas e respostas, permitindo que o Gerador de QA adquira eficientemente conhecimento específico do domínio durante a destilação. Experimentos em endoscopia gastrointestinal e VQA esportiva demonstram que o LEAML supera consistentemente o ajuste fino padrão sob supervisão mínima, destacando a eficácia da nossa estrutura LEAML proposta.
O desenvolvimento de software depende fortemente de testes unitários extensivos, o que torna a eficiência da Geração Automatizada de Testes Unitários (UTG) particularmente importante. No entanto, a maioria dos LLMs existentes gera casos de teste um token por vez em cada passagem direta, o que resulta em UTG ineficiente. Recentemente, os LLMs de difusão (dLLMs) surgiram, oferecendo capacidades promissoras de geração paralela e demonstrando um forte potencial para UTG eficiente. Apesar dessa vantagem, sua aplicação à UTG ainda é limitada por uma clara troca entre eficiência e qualidade dos testes, uma vez que aumentar o número de tokens gerados em cada etapa frequentemente causa um declínio acentuado na qualidade dos casos de teste. Para superar essa limitação, apresentamos o DiffTester, uma estrutura de aceleração especificamente projetada para dLLMs em UTG. A ideia central do DiffTester é que os testes unitários direcionados ao mesmo método focal frequentemente compartilham padrões estruturais repetitivos. Ao identificar dinamicamente esses padrões comuns por meio da análise de árvores sintáticas abstratas durante a geração, o DiffTester aumenta adaptativamente o número de tokens produzidos em cada etapa sem comprometer a qualidade da saída. Para permitir uma avaliação abrangente, estendemos o benchmark original TestEval, que era limitado a Python, introduzindo linguagens de programação adicionais, incluindo Java e C++. Experimentos extensivos em três benchmarks com dois modelos representativos mostram que o DiffTester oferece uma aceleração significativa enquanto preserva a cobertura de testes. Além disso, o DiffTester generaliza bem em diferentes dLLMs e linguagens de programação, fornecendo uma solução prática e escalável para UTG eficiente no desenvolvimento de software. O código e os dados estão publicamente disponíveis em https://github.com/wellbeingyang/DLM4UTG-open.
A avaliação de conformidade de políticas é uma tarefa fundamental que consiste em determinar se um caso de entrada está em estrita conformidade com um conjunto de regras definidas por humanos, mais comumente conhecidas como políticas. Na prática, especialistas humanos seguem um processo sistemático e passo a passo para identificar violações em relação a estipulações específicas delineadas na política. No entanto, a documentação desses processos de raciocínio de alto nível, considerados padrão-ouro, é custosa de se obter. Neste artigo, introduzimos os Rastros de Raciocínio de Políticas (Policy Reasoning Traces - PRT), uma forma de cadeias de raciocínio geradas e especializadas que servem como uma ponte de raciocínio para melhorar as capacidades de avaliação de conformidade de políticas de um modelo de linguagem (LLM). Nossas avaliações empíricas demonstram que o uso de PRTs tanto em cenários de inferência quanto de treinamento melhora significativamente o desempenho de modelos de código aberto e comerciais, estabelecendo um novo estado da arte para políticas HIPAA e GDPR. Além dos ganhos em precisão, também destacamos como os PRTs podem aprimorar a capacidade de um LLM de citar com precisão cláusulas das políticas, bem como influenciar decisões de conformidade por meio de sua alta utilização a partir das cadeias de pensamento brutas.
Compreender o risco na condução autônoma exige não apenas percepção e previsão, mas também raciocínio de alto nível sobre o comportamento dos agentes e o contexto. Os métodos atuais baseados em Modelos de Linguagem Visual (VLMs) principalmente ancoram os agentes em imagens estáticas e fornecem julgamentos qualitativos, carecendo do raciocínio espaço-temporal necessário para capturar como os riscos evoluem ao longo do tempo. Para abordar essa lacuna, propomos o NuRisk, um conjunto de dados abrangente de Resposta a Perguntas Visuais (VQA) composto por 2.900 cenários e 1,1 milhão de amostras no nível do agente, construído com dados do mundo real do nuScenes e Waymo, complementados com cenários críticos de segurança do simulador CommonRoad. O conjunto de dados fornece imagens sequenciais baseadas em Visão de Cima (BEV) com anotações quantitativas de risco no nível do agente, permitindo raciocínio espaço-temporal. Avaliamos VLMs conhecidos em diferentes técnicas de prompt e descobrimos que eles falham em realizar raciocínio espaço-temporal explícito, resultando em uma precisão máxima de 33% com alta latência. Para superar essas deficiências, nosso agente VLM de 7B ajustado melhora a precisão para 41% e reduz a latência em 75%, demonstrando capacidades explícitas de raciocínio espaço-temporal que os modelos proprietários não possuíam. Embora isso represente um avanço significativo, a modesta precisão ressalta o profundo desafio da tarefa, estabelecendo o NuRisk como um benchmark crítico para o avanço do raciocínio espaço-temporal na condução autônoma.