Artigos de pesquisa em IA selecionados diariamente com traduções
Apresentamos Hala, uma família de modelos de instrução e tradução centrados no árabe, construídos com nosso pipeline de tradução e ajuste. Primeiro, comprimimos um forte professor AR↔EN para FP8 (obtendo ~2x mais throughput sem perda de qualidade) e o usamos para criar supervisão bilíngue de alta fidelidade. Um modelo de linguagem leve LFM2-1.2B é então ajustado nesses dados e usado para traduzir conjuntos de instruções em inglês de alta qualidade para o árabe, produzindo um corpus em escala de milhões adaptado para seguir instruções. Treinamos modelos Hala com 350M, 700M, 1.2B e 9B de parâmetros e aplicamos a fusão slerp para equilibrar a especialização em árabe com as forças do modelo base. Em benchmarks centrados no árabe, Hala alcança resultados de ponta tanto nas categorias "nano" (≤2B) quanto "pequena" (7-9B), superando suas bases. Disponibilizamos modelos, dados, avaliações e receitas para acelerar a pesquisa em PLN para o árabe.
Apresentamos o SAIL-VL2, um modelo de base visão-linguagem (LVM) de código aberto para compreensão e raciocínio multimodal abrangente. Como sucessor do SAIL-VL, o SAIL-VL2 alcança desempenho de ponta nas escalas de 2B e 8B parâmetros em diversos benchmarks de imagem e vídeo, demonstrando capacidades robustas desde a percepção detalhada até o raciocínio complexo. Três inovações principais impulsionam sua eficácia. Primeiro, um pipeline de curadoria de dados em larga escala com estratégias de pontuação e filtragem melhora tanto a qualidade quanto a distribuição em dados de legendagem, OCR, QA e vídeo, aumentando a eficiência do treinamento. Segundo, um framework de treinamento progressivo começa com um codificador visual pré-treinado poderoso (SAIL-ViT), avança por meio de pré-treinamento multimodal e culmina em um paradigma híbrido SFT-RL de fusão de pensamento que fortalece sistematicamente as capacidades do modelo. Terceiro, avanços arquitetônicos vão além de LLMs densos para designs eficientes de Mixture-of-Experts (MoE) esparsos. Com essas contribuições, o SAIL-VL2 demonstra desempenho competitivo em 106 conjuntos de dados e alcança resultados de ponta em benchmarks desafiadores de raciocínio, como MMMU e MathVista. Além disso, no ranking OpenCompass, o SAIL-VL2-2B ocupa o primeiro lugar entre os modelos de código aberto oficialmente lançados com menos de 4B parâmetros, servindo como uma base eficiente e extensível para a comunidade multimodal de código aberto.
A visão omnidirecional, que utiliza visão de 360 graus para compreender o ambiente, tornou-se cada vez mais crítica em domínios como robótica, inspeção industrial e monitoramento ambiental. Em comparação com a visão tradicional de pinhole, a visão omnidirecional proporciona uma consciência ambiental holística, melhorando significativamente a completude da percepção de cena e a confiabilidade da tomada de decisões. No entanto, a pesquisa fundamental nessa área historicamente ficou atrás da visão tradicional de pinhole. Esta palestra apresenta uma tendência emergente na era da IA incorporada: o rápido desenvolvimento da visão omnidirecional, impulsionado pela crescente demanda industrial e interesse acadêmico. Destacamos avanços recentes em geração omnidirecional, percepção omnidirecional, compreensão omnidirecional e conjuntos de dados relacionados. Com base em insights tanto da academia quanto da indústria, propomos uma arquitetura de sistema panorâmico ideal na era da IA incorporada, chamada PANORAMA, que consiste em quatro subsistemas principais. Além disso, oferecemos opiniões detalhadas relacionadas a tendências emergentes e impactos intercomunitários na interseção entre visão panorâmica e IA incorporada, juntamente com o roteiro futuro e os desafios em aberto. Esta visão geral sintetiza os avanços de ponta e delineia desafios e oportunidades para pesquisas futuras na construção de sistemas de IA omnidirecionais robustos e de propósito geral na era da IA incorporada.
Exames são um teste fundamental da inteligência em nível de especialista e exigem compreensão integrada, raciocínio e geração. Os benchmarks existentes no estilo de exames focam principalmente em tarefas de compreensão e raciocínio, e os atuais benchmarks de geração enfatizam a ilustração de conhecimento mundial e conceitos visuais, negligenciando a avaliação de exames rigorosos de desenho. Apresentamos o GenExam, o primeiro benchmark para exames multidisciplinares de texto para imagem, contendo 1.000 amostras em 10 disciplinas com prompts no estilo de exames organizados sob uma taxonomia de quatro níveis. Cada problema é equipado com imagens de referência e pontos de pontuação detalhados para permitir uma avaliação precisa da correção semântica e plausibilidade visual. Experimentos mostram que até modelos de última geração, como GPT-Image-1 e Gemini-2.5-Flash-Image, alcançam menos de 15% em pontuações estritas, e a maioria dos modelos obtém quase 0%, sugerindo o grande desafio do nosso benchmark. Ao enquadrar a geração de imagens como um exame, o GenExam oferece uma avaliação rigorosa da capacidade dos modelos de integrar conhecimento, raciocínio e geração, fornecendo insights sobre o caminho para a AGI geral.
Embora os Modelos de Linguagem de Código (CLMs, na sigla em inglês) tenham demonstrado desempenho superior em tarefas de engenharia de software, como geração e sumarização de código, estudos empíricos recentes revelam uma vulnerabilidade crítica de privacidade: esses modelos exibem memorização não intencional de dados sensíveis de treinamento, permitindo a reprodução textual de informações confidenciais quando especificamente solicitados. Para abordar esse problema, várias abordagens, incluindo a desduplicação de dados de treinamento e a aplicação de privacidade diferencial, foram propostas. No entanto, esses métodos exigem o retreinamento completo dos CLMs já implantados, o que acarreta custos computacionais substanciais. Neste artigo, buscamos responder à seguinte questão de pesquisa: As informações sensíveis memorizadas pelos CLMs podem ser apagadas de forma eficaz e eficiente? Realizamos uma investigação pioneira sobre a eliminação de memorização sensível em CLMs por meio do desaprendizado de máquina (machine unlearning) — um método de modificação pós-treinamento que remove informações específicas de modelos já treinados sem a necessidade de retreinamento completo. Especificamente, primeiro quantificamos os riscos de memorização de dados sensíveis nos conjuntos de dados de treinamento dos CLMs e selecionamos um conjunto de dados de alto risco com 50.000 amostras sensíveis memorizadas como alvos de desaprendizado. Estudamos duas abordagens amplamente utilizadas de desaprendizado baseadas em ascensão de gradiente: os métodos vanilla e baseados em restrições, e introduzimos o CodeEraser, uma variante avançada que desaprende seletivamente segmentos sensíveis memorizados no código, preservando a integridade estrutural e a correção funcional do código circundante. Experimentos extensivos em três famílias de CLMs — CodeParrot, CodeGen-Mono e Qwen2.5-Coder — validam a eficácia e eficiência do CodeEraser na eliminação de memorização sensível direcionada, mantendo a utilidade do modelo.
Os Modelos de Linguagem de Grande Escala (LLMs) têm feito progressos notáveis no raciocínio matemático, mas ainda enfrentam dificuldades em tarefas de alta precisão, como computação numérica e manipulação simbólica formal. A integração de ferramentas externas surgiu como uma abordagem promissora para superar essa lacuna. Apesar dos avanços recentes, os métodos existentes lutam com três desafios principais: a construção de dados de raciocínio integrados a ferramentas, a otimização em nível granular e o aprimoramento da inferência. Para superar essas limitações, propomos o THOR (Otimização Hierárquica Integrada a Ferramentas via RL). Primeiro, introduzimos o TIRGen, um pipeline baseado em ator-crítico multiagente para construir conjuntos de dados de alta qualidade de caminhos de raciocínio integrados a ferramentas, alinhados à política e com boa generalização em diversos modelos. Segundo, para realizar uma otimização hierárquica em nível granular, introduzimos uma estratégia de RL que otimiza conjuntamente a resolução de problemas em nível de trajetória e a geração de código em nível de etapa. Isso é motivado por nossa percepção-chave de que o sucesso de uma chamada de ferramenta intermediária é um forte indicador da correção da resposta final. Por fim, o THOR incorpora um mecanismo de autocorreção que aproveita o feedback imediato das ferramentas para revisar dinamicamente caminhos de raciocínio errôneos durante a inferência. Nossa abordagem demonstra forte generalização em diversos modelos, atuando eficazmente tanto em modelos de raciocínio quanto em modelos não relacionados a raciocínio. Ela ainda alcança desempenho de ponta para modelos de escala semelhante em múltiplos benchmarks matemáticos, ao mesmo tempo que oferece melhorias consistentes em benchmarks de código. Nosso código estará publicamente disponível em https://github.com/JingMog/THOR.
Os recentes avanços em agentes baseados em Large Language Models (LLMs) têm demonstrado capacidades impressionantes em múltiplos domínios, exemplificados por sistemas de pesquisa profunda que apresentam desempenho superior em tarefas complexas de busca e síntese de informações. Embora agentes de pesquisa profunda de propósito geral tenham mostrado capacidades impressionantes, eles enfrentam dificuldades significativas com desafios do domínio médico, como evidenciado por sistemas proprietários líderes que alcançam precisão limitada em benchmarks médicos complexos. As principais limitações são: (1) o modelo carece de conhecimento médico denso suficiente para raciocínio clínico, e (2) a estrutura é limitada pela ausência de ferramentas de recuperação especializadas adaptadas para contextos médicos. Apresentamos um agente de pesquisa profunda médica que aborda esses desafios por meio de duas inovações centrais. Primeiro, desenvolvemos uma nova estrutura de síntese de dados utilizando grafos de conhecimento médico, extraindo as cadeias mais longas de subgrafos em torno de entidades médicas raras para gerar pares de perguntas e respostas complexas de múltiplos saltos. Segundo, integramos um mecanismo de recuperação médico privado personalizado juntamente com ferramentas de propósito geral, permitindo a síntese precisa de informações médicas. Nossa abordagem gera mais de 2100 trajetórias diversas em 12 especialidades médicas, cada uma com uma média de 4,2 interações com ferramentas. Por meio de um paradigma de treinamento em duas etapas que combina ajuste fino supervisionado e aprendizado por reforço online com recompensas compostas, nosso modelo MedResearcher-R1-32B demonstra desempenho excepcional, estabelecendo novos resultados de ponta em benchmarks médicos enquanto mantém desempenho competitivo em tarefas gerais de pesquisa profunda. Nosso trabalho demonstra que inovações estratégicas específicas do domínio em arquitetura, design de ferramentas e construção de dados de treinamento podem permitir que modelos menores de código aberto superem sistemas proprietários muito maiores em domínios especializados.
Apresentamos o Wan-Animate, um framework unificado para animação e substituição de personagens. Dada uma imagem de um personagem e um vídeo de referência, o Wan-Animate pode animar o personagem replicando com precisão as expressões e movimentos do personagem no vídeo, gerando vídeos de personagens de alta fidelidade. Alternativamente, ele pode integrar o personagem animado no vídeo de referência para substituir o personagem original, replicando a iluminação e o tom de cor da cena para alcançar uma integração ambiental perfeita. O Wan-Animate é construído sobre o modelo Wan. Para adaptá-lo às tarefas de animação de personagens, empregamos um paradigma de entrada modificado para diferenciar entre condições de referência e regiões para geração. Esse design unifica múltiplas tarefas em uma representação simbólica comum. Utilizamos sinais de esqueleto alinhados espacialmente para replicar o movimento corporal e características faciais implícitas extraídas das imagens de origem para recriar expressões, permitindo a geração de vídeos de personagens com alta controlabilidade e expressividade. Além disso, para melhorar a integração ambiental durante a substituição de personagens, desenvolvemos um LoRA de Reiluminação auxiliar. Esse módulo preserva a consistência da aparência do personagem enquanto aplica a iluminação ambiental e o tom de cor apropriados. Resultados experimentais demonstram que o Wan-Animate alcança desempenho de ponta. Estamos comprometidos em disponibilizar publicamente os pesos do modelo e seu código-fonte.
Este artigo revisa o Desafio MARS2 2025 sobre Raciocínio Multimodal. Nosso objetivo é reunir diferentes abordagens em aprendizado de máquina multimodal e LLMs por meio de um grande benchmark. Esperamos que isso permita que os pesquisadores acompanhem o estado da arte nesta área extremamente dinâmica. Enquanto isso, um número crescente de bancos de testes tem impulsionado a evolução dos modelos de linguagem de propósito geral. Assim, o MARS2 deste ano se concentra em cenários do mundo real e especializados para ampliar as aplicações de raciocínio multimodal dos MLLMs. Nossa equipe organizadora lançou dois conjuntos de dados personalizados, Lens e AdsQA, como conjuntos de teste, que suportam raciocínio geral em 12 cenários cotidianos e raciocínio específico de domínio em vídeos publicitários, respectivamente. Avaliamos mais de 40 modelos de referência que incluem tanto MLLMs generalistas quanto modelos específicos para tarefas, e abrimos três trilhas de competição, ou seja, Grounding Visual em Cenários do Mundo Real (VG-RS), Resposta a Perguntas Visuais com Consciência Espacial (VQA-SA) e Raciocínio Visual em Vídeos Publicitários Criativos (VR-Ads). Por fim, 76 equipes de renomadas instituições acadêmicas e industriais se inscreveram e mais de 40 submissões válidas (de mais de 1200) foram incluídas em nossas listas de classificação. Nossos conjuntos de dados, códigos (mais de 40 modelos de referência e mais de 15 métodos dos participantes) e classificações estão disponíveis publicamente no site do workshop MARS2 e em nossa página da organização no GitHub https://github.com/mars2workshop/, onde nossas atualizações e anúncios de eventos futuros serão continuamente fornecidos.
Grandes modelos de linguagem (LLMs) frequentemente enfrentam dificuldades com a fidelidade ao contexto, produzindo respostas inconsistentes ao responder a perguntas baseadas em informações fornecidas. As abordagens existentes ou dependem de ajuste fino supervisionado custoso para gerar evidências após a resposta ou treinam modelos para realizar buscas na web sem necessariamente melhorar a utilização do contexto fornecido. Propomos o CARE, uma nova estrutura de raciocínio aumentado por recuperação nativa que ensina LLMs a integrar explicitamente evidências no contexto em seu processo de raciocínio com as próprias capacidades de recuperação do modelo. Nosso método requer dados de evidência rotulados limitados, enquanto melhora significativamente tanto a precisão da recuperação quanto o desempenho da geração de respostas por meio de tokens recuperados estrategicamente na cadeia de raciocínio. Experimentos extensivos em múltiplos benchmarks de QA do mundo real e contrafactuais demonstram que nossa abordagem supera substancialmente o ajuste fino supervisionado, métodos tradicionais de geração aumentada por recuperação e soluções de recuperação externa. Este trabalho representa um avanço fundamental em tornar LLMs mais precisos, confiáveis e eficientes para tarefas intensivas em conhecimento.
Propomos o LLM-Interleaved (LLM-I), um framework flexível e dinâmico que reformula a geração intercalada de imagens e textos como um problema de uso de ferramentas. O LLM-I foi projetado para superar o gargalo de "uma única ferramenta" dos modelos unificados atuais, que são limitados à geração de imagens sintéticas e têm dificuldades com tarefas que exigem fundamentação factual ou precisão programática. Nosso framework capacita um agente central LLM ou MLLM a orquestrar de forma inteligente um conjunto diversificado de ferramentas visuais especializadas, incluindo busca de imagens online, geração baseada em difusão, execução de código e edição de imagens. O agente é treinado para selecionar e aplicar essas ferramentas com proficiência por meio de um framework de Aprendizado por Reforço (RL) que apresenta um sistema de recompensas híbrido, combinando lógica baseada em regras com julgamentos de avaliadores LLM e MLLM. Treinado em um novo conjunto de dados diversificado usando quatro diferentes arquiteturas de modelo, o LLM-I demonstra desempenho de ponta, superando os métodos existentes por uma grande margem em quatro benchmarks. Também introduzimos uma nova estratégia de escalonamento em tempo de teste que proporciona ganhos adicionais de desempenho. Página do Projeto: https://github.com/ByteDance-BandAI/LLM-I.
O aprendizado de máquina generativo oferece novas oportunidades para compreender melhor a dinâmica complexa do sistema terrestre. Métodos recentes baseados em difusão abordam vieses espectrais e melhoram a calibração de conjuntos na previsão do tempo em comparação com métodos determinísticos, mas até agora têm se mostrado difíceis de escalar de forma estável em altas resoluções. Apresentamos o AERIS, um transformador de difusão Swin em nível de pixel com 1,3 a 80 bilhões de parâmetros, para preencher essa lacuna, e o SWiPe, uma técnica generalizável que combina paralelismo de janelas com paralelismo de sequência e pipeline para fragmentar transformadores baseados em janelas sem custo adicional de comunicação ou aumento do tamanho global do lote. No Aurora (10.080 nós), o AERIS mantém 10,21 ExaFLOPS (precisão mista) e um desempenho de pico de 11,21 ExaFLOPS com tamanho de patch 1x1 no conjunto de dados ERA5 de 0,25{\deg}, alcançando 95,5% de eficiência de escalonamento fraco e 81,6% de eficiência de escalonamento forte. O AERIS supera o IFS ENS e permanece estável em escalas sazonais até 90 dias, destacando o potencial de modelos de difusão com bilhões de parâmetros para previsão do tempo e clima.
Modelos generativos de imagem recentes normalmente capturam a distribuição de imagens em um espaço latente pré-construído, dependendo de um tokenizador de imagem congelado. No entanto, existe uma discrepância significativa entre a distribuição de reconstrução e a distribuição de geração, onde os tokenizadores atuais priorizam apenas a tarefa de reconstrução que ocorre antes do treinamento generativo, sem considerar os erros de geração durante a amostragem. Neste artigo, analisamos de forma abrangente a razão dessa discrepância em um espaço latente discreto e, a partir disso, propomos um novo esquema de treinamento de tokenizador que inclui tanto o treinamento principal quanto o pós-treinamento, focando na melhoria da construção do espaço latente e na decodificação, respectivamente. Durante o treinamento principal, uma estratégia de perturbação latente é proposta para simular ruídos de amostragem, ou seja, os tokens inesperados gerados na inferência generativa. Especificamente, propomos um esquema de treinamento de tokenizador plug-and-play, que melhora significativamente a robustez do tokenizador, aumentando assim a qualidade da geração e a velocidade de convergência, e uma nova métrica de avaliação de tokenizador, ou seja, pFID, que correlaciona com sucesso o desempenho do tokenizador com a qualidade da geração. Durante o pós-treinamento, otimizamos ainda mais o decodificador do tokenizador em relação a um modelo generativo bem treinado para mitigar a diferença de distribuição entre os tokens gerados e reconstruídos. Com um gerador sim400M, um tokenizador discreto treinado com nosso treinamento principal proposto alcança um notável 1,60 gFID e obtém ainda 1,36 gFID com o pós-treinamento adicional. Mais experimentos são conduzidos para validar amplamente a eficácia de nossa estratégia de pós-treinamento em tokenizadores discretos e contínuos prontos para uso, acoplados a geradores baseados em autoregressão e difusão.
Apresentamos o SteeringControl, um benchmark para avaliar métodos de direcionamento de representações em relação a objetivos fundamentais de alinhamento—viés, geração de conteúdo prejudicial e alucinação—e seus efeitos em comportamentos secundários, como sifonância e moralidade de senso comum. Embora trabalhos anteriores de alinhamento frequentemente destaquem a veracidade ou a capacidade de raciocínio para demonstrar os efeitos colaterais do direcionamento de representações, descobrimos que existem muitas compensações não exploradas que ainda não foram compreendidas de forma sistemática. Coletamos um conjunto de dados de comportamentos primários e secundários relevantes para segurança, a fim de avaliar a eficácia do direcionamento e o entrelaçamento comportamental, com foco em cinco métodos populares de direcionamento. Para viabilizar isso, desenvolvemos uma estrutura modular de direcionamento baseada em componentes únicos que servem como blocos fundamentais de muitos métodos existentes. Nossos resultados com os modelos Qwen-2.5-7B e Llama-3.1-8B mostram que um forte desempenho de direcionamento depende da combinação específica do método de direcionamento, do modelo e do comportamento alvo, e que um entrelaçamento severo de conceitos pode resultar de combinações inadequadas desses três elementos. Disponibilizamos nosso código aqui: https://github.com/wang-research-lab/SteeringControl.git.
Circuitos quânticos variacionais (VQCs) são centrais para o aprendizado de máquina quântico, enquanto os recentes avanços em redes de Kolmogorov-Arnold (KANs) destacam o poder de funções de ativação aprendíveis. Unificamos essas direções ao introduzir funções de ativação quânticas variacionais (QVAFs), realizadas por meio de circuitos de recarregamento de dados de um único qubit, chamados de DatA Re-Uploading ActivatioNs (DARUANs). Mostramos que o DARUAN com pesos treináveis no pré-processamento de dados possui um espectro de frequência que cresce exponencialmente com as repetições de dados, permitindo uma redução exponencial no tamanho dos parâmetros em comparação com ativações baseadas em Fourier, sem perda de expressividade. A incorporação do DARUAN em KANs resulta em KANs inspiradas em quântica (QKANs), que mantêm a interpretabilidade das KANs enquanto melhoram sua eficiência de parâmetros, expressividade e generalização. Introduzimos ainda duas técnicas novas para aprimorar a escalabilidade, viabilidade e eficiência computacional, como a extensão de camadas e QKANs híbridas (HQKANs) como substitutos diretos de perceptrons multicamadas (MLPs) para redes feed-forward em modelos de grande escala. Fornecemos análises teóricas e experimentos extensivos em regressão de funções, classificação de imagens e modelagem generativa de linguagem autoregressiva, demonstrando a eficiência e escalabilidade das QKANs. DARUANs e QKANs oferecem uma direção promissora para o avanço do aprendizado de máquina quântico tanto em hardware quântico de escala intermediária ruidoso (NISQ) quanto em simuladores quânticos clássicos.
Propomos um pipeline para extrair e reconstruir ativos 3D dinâmicos de fumaça a partir de um único vídeo capturado em ambiente natural, além de integrar simulação interativa para o design e edição de fumaça. Os recentes avanços em visão 3D melhoraram significativamente a reconstrução e renderização de dinâmicas de fluidos, suportando a síntese de visões realistas e temporalmente consistentes. No entanto, as reconstruções atuais de fluidos dependem fortemente de ambientes controlados e limpos em laboratório, enquanto vídeos do mundo real capturados em ambientes naturais permanecem amplamente inexplorados. Identificamos três desafios principais na reconstrução de fumaça em vídeos do mundo real e projetamos técnicas específicas, incluindo a extração de fumaça com remoção de fundo, inicialização de partículas de fumaça e poses da câmera, e inferência de vídeos multiview. Nosso método não apenas supera métodos anteriores de reconstrução e geração com reconstruções de fumaça de alta qualidade (+2,22 PSNR médio em vídeos naturais), mas também permite uma edição diversificada e realista das dinâmicas de fluidos ao simular nossos ativos de fumaça. Disponibilizamos nossos modelos, dados e ativos 4D de fumaça em [https://autumnyq.github.io/WildSmoke](https://autumnyq.github.io/WildSmoke).
À medida que os modelos de linguagem de grande escala (LLMs) se tornam parte integrante de sistemas multiagentes, novos riscos de privacidade surgem, indo além da memorização, inferência direta ou avaliações de interação única. Em particular, respostas aparentemente inócuas, quando compostas ao longo de interações, podem permitir que adversários recuperem informações sensíveis de forma cumulativa, um fenômeno que denominamos vazamento de privacidade composicional. Apresentamos o primeiro estudo sistemático desses vazamentos de privacidade composicional e possíveis métodos de mitigação em sistemas multiagentes baseados em LLMs. Primeiro, desenvolvemos um framework que modela como o conhecimento auxiliar e as interações entre agentes amplificam conjuntamente os riscos à privacidade, mesmo quando cada resposta é benigna isoladamente. Em seguida, para mitigar isso, propomos e avaliamos duas estratégias de defesa: (1) Defesa de Teoria da Mente (ToM), onde agentes defensores inferem a intenção de um questionador ao antecipar como suas saídas podem ser exploradas por adversários, e (2) Defesa de Consenso Colaborativo (CoDef), onde agentes respondedores colaboram com pares que votam com base em um estado agregado compartilhado para restringir a disseminação de informações sensíveis. Crucialmente, equilibramos nossa avaliação entre composições que expõem informações sensíveis e composições que resultam em inferências benignas. Nossos experimentos quantificam como essas estratégias de defesa diferem no equilíbrio entre privacidade e utilidade. Descobrimos que, embora a cadeia de pensamento (chain-of-thought) por si só ofereça proteção limitada contra vazamentos (~39% de taxa de bloqueio de informações sensíveis), nossa defesa ToM melhora substancialmente o bloqueio de consultas sensíveis (até 97%), mas pode reduzir o sucesso em tarefas benignas. O CoDef alcança o melhor equilíbrio, resultando no maior Resultado Balanceado (79,8%), destacando o benefício de combinar raciocínio explícito com colaboração entre defensores. Juntos, nossos resultados expõem uma nova classe de riscos em implantações colaborativas de LLMs e fornecem insights acionáveis para projetar salvaguardas contra vazamentos de privacidade composicionais e orientados por contexto.
O aconselhamento financeiro personalizado requer a consideração dos objetivos do usuário, restrições, tolerância ao risco e jurisdição. Trabalhos anteriores com LLMs concentraram-se em sistemas de suporte para investidores e planejadores financeiros. Simultaneamente, numerosos estudos recentes examinam tarefas mais amplas de finanças pessoais, incluindo orçamento, gerenciamento de dívidas, aposentadoria e planejamento patrimonial, por meio de pipelines agentes que incorrem em altos custos de manutenção, gerando menos de 25% dos retornos financeiros esperados. Neste estudo, introduzimos uma estrutura nova e reproduzível que integra contexto financeiro relevante com estudos de finanças comportamentais para construir dados de supervisão para assessores de ponta a ponta. Utilizando essa estrutura, criamos um conjunto de dados de raciocínio com 19 mil amostras e realizamos um ajuste fino abrangente do modelo Qwen-3-8B nesse conjunto de dados. Por meio de uma divisão de teste reservada e um estudo cego com júri de LLMs, demonstramos que, através de uma curadoria cuidadosa de dados e integração comportamental, nosso modelo de 8B alcança desempenho comparável a baselines significativamente maiores (14-32B parâmetros) em métricas de precisão factual, fluência e personalização, enquanto incorre em custos 80% menores do que os modelos maiores.
Este estudo apresenta uma comparação sistemática entre redes neurais híbridas quântico-clássicas e modelos puramente clássicos em três conjuntos de dados de referência (MNIST, CIFAR100 e STL10) para avaliar seu desempenho, eficiência e robustez. Os modelos híbridos integram circuitos quânticos parametrizados com arquiteturas clássicas de aprendizado profundo, enquanto os modelos clássicos utilizam redes neurais convolucionais (CNNs) convencionais. Os experimentos foram conduzidos ao longo de 50 épocas de treinamento para cada conjunto de dados, com avaliações de precisão na validação, precisão no teste, tempo de treinamento, uso de recursos computacionais e robustez adversarial (testada com perturbações de epsilon=0.1). Os principais resultados demonstram que os modelos híbridos superam consistentemente os modelos clássicos em precisão final, alcançando {99,38\% (MNIST), 41,69\% (CIFAR100) e 74,05\% (STL10) de precisão na validação, em comparação com os benchmarks clássicos de 98,21\%, 32,25\% e 63,76\%, respectivamente. Notavelmente, a vantagem híbrida escala com a complexidade do conjunto de dados, mostrando os ganhos mais significativos no CIFAR100 (+9,44\%) e no STL10 (+10,29\%). Os modelos híbridos também treinam de 5 a 12 vezes mais rápido (por exemplo, 21,23s vs. 108,44s por época no MNIST) e usam de 6 a 32\% menos parâmetros} enquanto mantêm uma generalização superior para dados de teste não vistos. Testes de robustez adversarial revelam que os modelos híbridos são significativamente mais resilientes em conjuntos de dados mais simples (por exemplo, 45,27\% de precisão robusta no MNIST vs. 10,80\% para o clássico), mas mostram fragilidade comparável em conjuntos de dados complexos como o CIFAR100 (aproximadamente 1\% de robustez para ambos). Análises de eficiência de recursos indicam que os modelos híbridos consomem menos memória (4--5GB vs. 5--6GB para os clássicos) e têm menor utilização de CPU (9,5\% vs. 23,2\% em média). Esses resultados sugerem que as arquiteturas híbridas quântico-clássicas oferecem vantagens convincentes em precisão, eficiência de treinamento e escalabilidade de parâmetros, particularmente para tarefas visuais complexas.