Artigos de pesquisa em IA selecionados diariamente com traduções
O estereofotometria universal (PS) tem como objetivo recuperar normais de superfície de alta qualidade em objetos sob condições de iluminação arbitrárias, sem depender de modelos de iluminação específicos. Apesar dos avanços recentes, como SDM-UniPS e Uni MS-PS, dois desafios fundamentais persistem: 1) o acoplamento profundo entre a iluminação variável e as características da normal da superfície, onde a ambiguidade na intensidade observada dificulta a determinação de se as variações de brilho decorrem de mudanças na iluminação ou na orientação da superfície; e 2) a preservação de detalhes geométricos de alta frequência em superfícies complexas, onde geometrias intrincadas criam auto-sombreamento, inter-reflexões e variações sutis nas normais que as operações convencionais de processamento de características têm dificuldade em capturar com precisão.
Neste trabalho, apresentamos o OmniGen2, um modelo generativo versátil e de código aberto projetado para oferecer uma solução unificada para diversas tarefas de geração, incluindo texto-para-imagem, edição de imagem e geração em contexto. Diferente do OmniGen v1, o OmniGen2 apresenta dois caminhos de decodificação distintos para as modalidades de texto e imagem, utilizando parâmetros não compartilhados e um tokenizador de imagem desacoplado. Esse design permite que o OmniGen2 se baseie em modelos existentes de compreensão multimodal sem a necessidade de readequar entradas de VAE, preservando assim as capacidades originais de geração de texto. Para facilitar o treinamento do OmniGen2, desenvolvemos pipelines abrangentes de construção de dados, abarcando edição de imagem e geração em contexto. Além disso, introduzimos um mecanismo de reflexão específico para tarefas de geração de imagem e criamos um conjunto de dados de reflexão dedicado com base no OmniGen2. Apesar de seu tamanho relativamente modesto de parâmetros, o OmniGen2 alcança resultados competitivos em múltiplos benchmarks de tarefas, incluindo texto-para-imagem e edição de imagem. Para avaliar ainda mais a geração em contexto, também referida como tarefas orientadas por sujeito, introduzimos um novo benchmark chamado OmniContext. O OmniGen2 alcança desempenho de ponta entre os modelos de código aberto em termos de consistência. Disponibilizaremos nossos modelos, código de treinamento, conjuntos de dados e pipeline de construção de dados para apoiar pesquisas futuras nesta área. Página do Projeto: https://vectorspacelab.github.io/OmniGen2; Link do GitHub: https://github.com/VectorSpaceLab/OmniGen2
A geração ultra-longa por modelos de linguagem de grande escala (LLMs) é um cenário amplamente demandado, mas ainda representa um desafio significativo devido ao limite máximo de comprimento de geração e à degradação geral da qualidade à medida que o comprimento da sequência aumenta. Abordagens anteriores, exemplificadas pelo LongWriter, geralmente dependem de "ensino", que envolve ajuste fino supervisionado (SFT) em saídas sintéticas de longo formato. No entanto, essa estratégia depende fortemente de dados SFT sintéticos, que são difíceis e custosos de construir, muitas vezes carecem de coerência e consistência, e tendem a ser excessivamente artificiais e estruturalmente monótonos. Neste trabalho, propomos uma abordagem baseada em incentivos que, partindo inteiramente do zero e sem depender de dados anotados ou sintéticos, utiliza aprendizado por reforço (RL) para promover o surgimento de capacidades de geração de texto ultra-longo e de alta qualidade em LLMs. Realizamos o treinamento de RL a partir de um modelo base, semelhante ao R1-Zero, orientando-o a envolver-se em raciocínios que facilitam o planejamento e o refinamento durante o processo de escrita. Para apoiar isso, empregamos modelos de recompensa especializados que direcionam o LLM para um melhor controle de comprimento, qualidade de escrita e formatação estrutural. Avaliações experimentais mostram que nosso modelo LongWriter-Zero, treinado a partir do Qwen2.5-32B, supera consistentemente os métodos tradicionais de SFT em tarefas de escrita de longo formato, alcançando resultados de ponta em todas as métricas no WritingBench e no Arena-Write, e até mesmo superando modelos de 100B+ como o DeepSeek R1 e o Qwen3-235B. Disponibilizamos nossos dados e checkpoints do modelo em https://huggingface.co/THU-KEG/LongWriter-Zero-32B.
Recentemente, a IA Agente tornou-se um campo de pesquisa cada vez mais popular. No entanto, argumentamos que as práticas atuais de pesquisa em agentes carecem de padronização e rigor científico, dificultando a realização de comparações justas entre métodos. Como resultado, ainda não está claro como diferentes escolhas de design em frameworks de agentes afetam a eficácia, e medir seu progresso continua sendo um desafio. Neste trabalho, realizamos um estudo empírico sistemático no benchmark GAIA e no BrowseComp para examinar o impacto de escolhas de design populares em componentes chave de agentes de maneira justa e rigorosa. Descobrimos que a falta de um protocolo de avaliação padrão torna trabalhos anteriores, mesmo os de código aberto, não reproduzíveis, com uma variação significativa entre execuções aleatórias. Portanto, introduzimos um protocolo de avaliação mais robusto para estabilizar as comparações. Nosso estudo revela quais componentes e designs são cruciais para agentes eficazes, enquanto outros são redundantes, apesar de parecerem lógicos. Com base em nossas descobertas, construímos e disponibilizamos como código aberto o OAgents, um novo framework de agente fundamental que alcança desempenho de ponta entre projetos de código aberto. O OAgents oferece um design modular para vários componentes de agentes, promovendo pesquisas futuras em IA Agente.
O Aprendizado por Reforço com Recompensas Verificáveis (RLVR) demonstra um potencial promissor no avanço das capacidades de raciocínio dos LLMs (Modelos de Linguagem de Grande Escala). No entanto, seu sucesso permanece amplamente confinado a domínios matemáticos e de código. Essa limitação primária decorre da forte dependência de verificadores específicos de domínio, o que resulta em complexidade proibitiva e escalabilidade limitada. Para enfrentar esse desafio, nossa observação-chave é que a probabilidade intrínseca de um LLM gerar uma resposta correta em formato livre indica diretamente sua própria avaliação da recompensa de raciocínio (ou seja, quão bem o processo de raciocínio leva à resposta correta). Com base nessa percepção, propomos o RLPR, uma estrutura simples e sem verificadores que extrapola o RLVR para domínios gerais mais amplos. O RLPR utiliza as pontuações de probabilidade de tokens do próprio LLM para respostas de referência como sinal de recompensa e maximiza a recompensa esperada durante o treinamento. Descobrimos que abordar a alta variância dessa recompensa de probabilidade ruidosa é crucial para fazê-la funcionar, e propomos métodos de conversão de probabilidade para recompensa e estabilização para garantir uma recompensa precisa e estável a partir das probabilidades intrínsecas do LLM. Experimentos abrangentes em quatro benchmarks de domínio geral e três benchmarks matemáticos mostram que o RLPR melhora consistentemente as capacidades de raciocínio em ambas as áreas para modelos baseados em Gemma, Llama e Qwen. Notavelmente, o RLPR supera o VeriFree concorrente em 7,6 pontos no TheoremQA e 7,5 pontos no Minerva, e até ultrapassa abordagens fortes dependentes de modelos verificadores, como o General-Reasoner, em 1,6 ponto médio em sete benchmarks.
Este artigo apresenta um framework multimodal que busca unificar a compreensão e geração visual dentro de uma representação semântica discreta compartilhada. Em seu núcleo está o Tokenizer Alinhado a Texto (TA-Tok), que converte imagens em tokens discretos usando um codebook alinhado a texto, projetado a partir do vocabulário de um grande modelo de linguagem (LLM). Ao integrar visão e texto em um espaço unificado com um vocabulário expandido, nosso LLM multimodal, Tar, permite entrada e saída cross-modal por meio de uma interface compartilhada, sem a necessidade de designs específicos para cada modalidade. Além disso, propomos codificação e decodificação adaptativas à escala para equilibrar eficiência e detalhes visuais, juntamente com um de-tokenizer generativo para produzir saídas visuais de alta fidelidade. Para atender a diversas necessidades de decodificação, utilizamos dois de-tokenizers complementares: um modelo autoregressivo rápido e um modelo baseado em difusão. Para melhorar a fusão de modalidades, investigamos tarefas avançadas de pré-treinamento, demonstrando melhorias tanto na compreensão quanto na geração visual. Experimentos em benchmarks mostram que o Tar iguala ou supera os métodos existentes de LLM multimodal, alcançando convergência mais rápida e maior eficiência de treinamento. Código, modelos e dados estão disponíveis em https://tar.csuhan.com.
A geração de vídeos a partir de sujeitos tem testemunhado progressos substanciais nos últimos anos. No entanto, os modelos existentes ainda enfrentam desafios significativos em seguir fielmente instruções textuais. Essa limitação, comumente conhecida como o problema de copiar e colar, surge do paradigma de treinamento em pares amplamente utilizado. Essa abordagem intrinsecamente entrelaça a identidade do sujeito com atributos de fundo e contextuais ao amostrar imagens de referência da mesma cena do vídeo alvo. Para resolver esse problema, introduzimos o Phantom-Data, o primeiro conjunto de dados de consistência de sujeito para vídeo de propósito geral entre pares cruzados, contendo aproximadamente um milhão de pares com identidade consistente em diversas categorias. Nosso conjunto de dados é construído por meio de um pipeline de três estágios: (1) um módulo de detecção de sujeito geral e alinhado à entrada, (2) recuperação de sujeitos em grande escala e em contextos cruzados de mais de 53 milhões de vídeos e 3 bilhões de imagens, e (3) verificação de identidade guiada por prioridades para garantir consistência visual sob variação contextual. Experimentos abrangentes mostram que o treinamento com o Phantom-Data melhora significativamente o alinhamento ao prompt e a qualidade visual, mantendo a consistência de identidade em paridade com as linhas de base em pares.
A Síntese Dinâmica de Novas Visões tem como objetivo gerar visões fotorrealistas de sujeitos em movimento a partir de pontos de vista arbitrários. Essa tarefa é particularmente desafiadora quando se depende de vídeo monocular, onde a separação entre estrutura e movimento é mal definida e a supervisão é escassa. Apresentamos o Video Diffusion-Aware Reconstruction (ViDAR), uma nova estrutura de reconstrução 4D que utiliza modelos de difusão personalizados para sintetizar um sinal de supervisão pseudo multivista para treinar uma representação baseada em splatting Gaussiano. Ao condicionar em características específicas da cena, o ViDAR recupera detalhes de aparência refinados enquanto mitiga artefatos introduzidos pela ambiguidade monocular. Para lidar com a inconsistência espaço-temporal da supervisão baseada em difusão, propomos uma função de perda diffusion-aware e uma estratégia de otimização de pose da câmera que alinha visões sintéticas com a geometria subjacente da cena. Experimentos no DyCheck, um benchmark desafiador com variação extrema de ponto de vista, mostram que o ViDAR supera todas as baselines state-of-the-art em qualidade visual e consistência geométrica. Destacamos ainda a forte melhoria do ViDAR em relação às baselines em regiões dinâmicas e fornecemos um novo benchmark para comparar o desempenho na reconstrução de partes da cena ricas em movimento. Página do projeto: https://vidar-4d.github.io
Os Modelos de Recompensa de Processo (PRMs, na sigla em inglês) surgiram recentemente como uma estrutura poderosa para supervisionar etapas intermediárias de raciocínio em modelos de linguagem de grande escala (LLMs). PRMs anteriores são treinados principalmente nas respostas finais dos modelos e têm dificuldade em avaliar de forma robusta as trajetórias de pensamento intermediárias, especialmente no cenário emergente de saídas do tipo trajetória-resposta geradas por modelos de raciocínio de ponta, como o Deepseek-R1. Neste trabalho, apresentamos o ReasonFlux-PRM, um PRM inovador e consciente da trajetória, projetado explicitamente para avaliar o tipo de rastreamento de raciocínio trajetória-resposta. O ReasonFlux-PRM incorpora supervisão tanto em nível de etapa quanto em nível de trajetória, permitindo a atribuição de recompensas refinadas alinhadas com dados estruturados de cadeia de pensamento. Adaptamos o ReasonFlux-PRM para suportar supervisão de recompensa em cenários offline e online, incluindo (i) seleção de dados de alta qualidade para destilação de modelos para ajuste fino supervisionado de modelos menores, (ii) fornecimento de recompensas densas em nível de processo para otimização de políticas durante o aprendizado por reforço, e (iii) habilitação de escalonamento guiado por recompensa no teste Best-of-N. Resultados empíricos em benchmarks desafiadores, como AIME, MATH500 e GPQA-Diamond, demonstram que o ReasonFlux-PRM-7B seleciona dados de qualidade superior em comparação com PRMs robustos (por exemplo, Qwen2.5-Math-PRM-72B) e baselines curados por humanos. Além disso, nosso ReasonFlux-PRM-7B derivado proporciona melhorias consistentes de desempenho, alcançando ganhos médios de 12,1% no ajuste fino supervisionado, 4,5% no aprendizado por reforço e 6,3% no escalonamento em tempo de teste. Também lançamos nosso eficiente ReasonFlux-PRM-1.5B para aplicações com recursos limitados e implantação em dispositivos de borda. Projetos: https://github.com/Gen-Verse/ReasonFlux
Apresentamos o DIP, um novo método não supervisionado de pós-treinamento projetado para aprimorar representações densas de imagens em codificadores visuais pré-treinados em larga escala para a compreensão contextual de cenas. Diferente de abordagens anteriores que dependem de arquiteturas complexas de auto-distilação, nosso método treina o codificador visual utilizando pseudo-tarefas que simulam explicitamente cenários contextuais subsequentes, inspirados por princípios de meta-aprendizado. Para permitir o pós-treinamento em dados não rotulados, propomos um mecanismo automático para gerar tarefas contextuais que combina um modelo de difusão pré-treinado e o próprio codificador visual. O DIP é simples, não supervisionado e computacionalmente eficiente, exigindo menos de 9 horas em uma única GPU A100. Ao aprender representações densas por meio de pseudo-tarefas contextuais, ele alcança um desempenho robusto em uma ampla variedade de tarefas contextuais subsequentes de compreensão de cenas no mundo real. Ele supera tanto o codificador visual inicial quanto métodos anteriores, oferecendo uma solução prática e eficaz para melhorar representações densas. O código está disponível aqui: https://github.com/sirkosophia/DIP
Propomos um novo mecanismo de memória para construir geradores de vídeo que podem explorar ambientes de forma interativa. Resultados semelhantes foram alcançados anteriormente por meio da técnica de "out-painting" de visões 2D da cena enquanto reconstruíam incrementalmente sua geometria 3D, o que rapidamente acumula erros, ou por geradores de vídeo com uma janela de contexto curta, que lutam para manter a coerência da cena a longo prazo. Para superar essas limitações, introduzimos o Surfel-Indexed View Memory (VMem), um mecanismo que memoriza visões passadas indexando-as geometricamente com base nos elementos de superfície 3D (surfels) que foram observados. O VMem permite a recuperação eficiente das visões passadas mais relevantes ao gerar novas visões. Ao focar apenas nessas visões relevantes, nosso método produz explorações consistentes de ambientes imaginados a uma fração do custo computacional de usar todas as visões passadas como contexto. Avaliamos nossa abordagem em benchmarks desafiadores de síntese de cenas de longo prazo e demonstramos desempenho superior em comparação com métodos existentes na manutenção da coerência da cena e no controle da câmera.
A avaliação de modelos generativos 3D continua desafiadora devido ao desalinhamento entre métricas automatizadas e a percepção humana de qualidade. Os benchmarks atuais dependem de métricas baseadas em imagens que ignoram a estrutura 3D ou de medidas geométricas que não capturam o apelo perceptivo e a utilidade no mundo real. Para abordar essa lacuna, apresentamos o 3D Arena, uma plataforma aberta para avaliar modelos de geração de imagem-para-3D por meio da coleta em larga escala de preferências humanas usando comparações pareadas. Desde o lançamento em junho de 2024, a plataforma coletou 123.243 votos de 8.096 usuários em 19 modelos de última geração, estabelecendo a maior avaliação de preferência humana para modelos generativos 3D. Contribuímos com o conjunto de dados iso3d, que contém 100 prompts de avaliação, e demonstramos controle de qualidade alcançando 99,75% de autenticidade do usuário por meio de detecção estatística de fraudes. Nosso sistema de classificação baseado em ELO fornece uma avaliação confiável de modelos, consolidando a plataforma como um recurso estabelecido de avaliação. Através da análise desses dados de preferência, apresentamos insights sobre os padrões de preferência humana. Nossas descobertas revelam preferências por características de apresentação visual, com saídas de splat Gaussiano alcançando uma vantagem de 16,6 ELO sobre malhas, e modelos texturizados recebendo uma vantagem de 144,1 ELO sobre modelos não texturizados. Fornecemos recomendações para melhorar os métodos de avaliação, incluindo avaliação multicritério, avaliação orientada a tarefas e comparação consciente do formato. O engajamento da comunidade estabelece o 3D Arena como um benchmark para o campo, ao mesmo tempo em que avança a compreensão da avaliação centrada no humano em modelos generativos 3D.
A arquitetura Mixture of Experts (MoE) emergiu como um paradigma poderoso para escalar grandes modelos de linguagem (LLMs) enquanto mantém a eficiência de inferência. No entanto, seus enormes requisitos de memória os tornam proibitivamente caros para ajustar ou implantar em ambientes com recursos limitados. Para enfrentar esse desafio, introduzimos o SlimMoE, uma estrutura de compressão em múltiplos estágios para transformar grandes modelos MoE em variantes muito menores e eficientes, sem incorrer nos custos proibitivos de treinamento do zero. Nosso método reduz sistematicamente a contagem de parâmetros ao simplificar os especialistas e transferir conhecimento por meio de estágios intermediários, mitigando efetivamente a degradação de desempenho comum em abordagens de poda única. Usando essa estrutura, comprimimos o Phi 3.5-MoE (41,9B parâmetros totais/6,6B parâmetros ativados) para criar o Phi-mini-MoE (7,6B parâmetros totais/2,4B parâmetros ativados) e o Phi-tiny-MoE (3,8B parâmetros totais/1,1B parâmetros ativados) usando apenas 400B tokens—menos de 10% dos dados de treinamento do modelo original. Esses modelos comprimidos podem ser ajustados em uma única GPU (A100 para o Phi-mini-MoE, A6000 para o Phi-tiny-MoE), tornando-os altamente adequados para ambientes acadêmicos e com recursos limitados. Nossos experimentos demonstram que esses modelos comprimidos superam outros de tamanho similar e permanecem competitivos com modelos maiores. Por exemplo, o Phi-mini-MoE alcança desempenho similar ou melhor ao Phi-3-mini usando apenas 2/3 dos parâmetros ativados e produz pontuações MMLU comparáveis ao Llama 3.1 8B, apesar de ter uma latência significativamente menor. Nossas descobertas demonstram que a poda estruturada combinada com a destilação em estágios oferece um caminho eficaz para criar modelos MoE compactos e de alta qualidade, abrindo caminho para uma adoção mais ampla das arquiteturas MoE. Disponibilizamos nossos modelos publicamente em https://huggingface.co/microsoft/Phi-mini-MoE-instruct e https://huggingface.co/microsoft/Phi-tiny-MoE-instruct.
A criação de perfis de usuários é fundamental para sistemas de recomendação, pois transforma dados brutos de interação do usuário em representações concisas e estruturadas que impulsionam recomendações personalizadas. Embora os perfis tradicionais baseados em embeddings careçam de interpretabilidade e adaptabilidade, avanços recentes com modelos de linguagem de grande escala (LLMs) permitem perfis baseados em texto que são semanticamente mais ricos e transparentes. No entanto, métodos existentes frequentemente aderem a formatos fixos que limitam sua capacidade de capturar a diversidade completa dos comportamentos do usuário. Neste artigo, apresentamos o LettinGo, uma nova estrutura para gerar perfis de usuários diversos e adaptativos. Ao aproveitar o poder expressivo dos LLMs e incorporar feedback direto de tarefas de recomendação subsequentes, nossa abordagem evita as restrições rígidas impostas pelo ajuste fino supervisionado (SFT). Em vez disso, empregamos a Otimização de Preferência Direta (DPO) para alinhar o gerador de perfis com o desempenho específico da tarefa, garantindo que os perfis permaneçam adaptativos e eficazes. O LettinGo opera em três etapas: (1) explorando diversos perfis de usuários por meio de múltiplos LLMs, (2) avaliando a qualidade dos perfis com base em seu impacto nos sistemas de recomendação e (3) alinhando a geração de perfis por meio de dados de preferência pareados derivados do desempenho da tarefa. Resultados experimentais demonstram que nossa estrutura melhora significativamente a precisão, flexibilidade e consciência contextual das recomendações. Este trabalho aprimora a geração de perfis como uma inovação chave para os sistemas de recomendação de próxima geração.
A edição de iluminação em vídeos longos com dinâmicas complexas possui um valor significativo em diversas tarefas subsequentes, incluindo a criação e manipulação de conteúdo visual, bem como o aumento de escala de dados para IA incorporada por meio de transferências sim2real e real2real. No entanto, as técnicas existentes de reiluminação de vídeo são predominantemente limitadas a vídeos de retrato ou enfrentam o gargalo da consistência temporal e da eficiência computacional. Neste artigo, propomos o TC-Light, um novo paradigma caracterizado pelo mecanismo de otimização pós-processamento em duas etapas. Partindo de um vídeo preliminarmente reiluminado por um modelo de reiluminação de vídeo inflado, ele otimiza o embedding de aparência na primeira etapa para alinhar a iluminação global. Em seguida, otimiza a representação canônica de vídeo proposta, ou seja, o Tensor de Vídeo Único (UVT), para alinhar texturas e iluminações de granularidade fina na segunda etapa. Para avaliar o desempenho de forma abrangente, também estabelecemos um benchmark de vídeos longos e altamente dinâmicos. Experimentos extensivos mostram que nosso método permite resultados de reiluminação fisicamente plausíveis com coerência temporal superior e baixo custo computacional. O código e as demonstrações em vídeo estão disponíveis em https://dekuliutesla.github.io/tclight/.
Apresentamos o RealPlay, um motor de jogo baseado em redes neurais para o mundo real que permite a geração interativa de vídeos a partir de sinais de controle do usuário. Diferente de trabalhos anteriores focados em visuais de estilo de jogo, o RealPlay visa produzir sequências de vídeo fotorealistas e temporalmente consistentes que se assemelham a filmagens do mundo real. Ele opera em um loop interativo: os usuários observam uma cena gerada, emitem um comando de controle e recebem um trecho curto de vídeo em resposta. Para possibilitar essa geração realista e responsiva, abordamos desafios-chave, incluindo a previsão iterativa em trechos para feedback de baixa latência, consistência temporal entre iterações e resposta precisa ao controle. O RealPlay é treinado com uma combinação de dados rotulados de jogos e vídeos não rotulados do mundo real, sem exigir anotações de ações do mundo real. Notavelmente, observamos duas formas de generalização: (1) transferência de controle - o RealPlay mapeia efetivamente sinais de controle de cenários virtuais para o mundo real; e (2) transferência de entidades - embora os rótulos de treinamento sejam originados exclusivamente de um jogo de corrida de carros, o RealPlay generaliza para controlar diversas entidades do mundo real, incluindo bicicletas e pedestres, além de veículos. A página do projeto pode ser encontrada em: https://wenqsun.github.io/RealPlay/
Propomos o primeiro framework capaz de computar uma grade espaço-temporal 4D de quadros de vídeo e partículas Gaussianas 3D para cada passo de tempo usando uma arquitetura feed-forward. Nossa arquitetura possui dois componentes principais: um modelo de vídeo 4D e um modelo de reconstrução 4D. Na primeira parte, analisamos as arquiteturas atuais de difusão de vídeo 4D que realizam atenção espacial e temporal de forma sequencial ou paralela dentro de um design de dois fluxos. Destacamos as limitações das abordagens existentes e introduzimos uma nova arquitetura fundida que realiza atenção espacial e temporal dentro de uma única camada. A chave do nosso método é um padrão de atenção esparsa, onde os tokens atendem a outros no mesmo quadro, no mesmo instante de tempo ou da mesma perspectiva. Na segunda parte, estendemos os algoritmos existentes de reconstrução 3D ao introduzir um cabeçalho Gaussiano, um algoritmo de substituição de tokens de câmera e camadas dinâmicas adicionais com treinamento. No geral, estabelecemos um novo estado da arte para geração 4D, melhorando tanto a qualidade visual quanto a capacidade de reconstrução.
Os modelos de linguagem multimodal de grande escala (MLLMs) começaram a demonstrar capacidades robustas de raciocínio em tarefas gerais, mas sua aplicação no domínio médico ainda está em estágios iniciais. A construção de dados de treinamento de cadeia de pensamento (CoT) é essencial para fortalecer as habilidades de raciocínio dos MLLMs médicos. No entanto, as abordagens existentes apresentam uma deficiência em oferecer uma estrutura abrangente para buscar e avaliar caminhos de raciocínio eficazes em direção a diagnósticos críticos. Para enfrentar esse desafio, propomos o Mentor-Intern Collaborative Search (MICS), um novo esquema de busca de caminhos de raciocínio para gerar dados médicos de CoT rigorosos e eficazes. O MICS primeiro aproveita modelos mentores para inicializar o raciocínio, passo a passo, em seguida, solicita que cada modelo interno continue o pensamento ao longo desses caminhos iniciados e, finalmente, seleciona o caminho de raciocínio ideal de acordo com o desempenho geral de raciocínio de múltiplos modelos internos. O desempenho do raciocínio é determinado por um MICS-Score, que avalia a qualidade dos caminhos de raciocínio gerados. Por fim, construímos o MMRP, um conjunto de dados de raciocínio médico multitarefa com dificuldade classificada, e o Chiron-o1, um novo MLLM médico desenvolvido por meio de uma estratégia de aprendizado curricular, com capacidades robustas de resposta a perguntas visuais e raciocínio generalizável. Experimentos extensivos demonstram que o Chiron-o1, treinado em nosso conjunto de dados CoT construído usando o MICS, alcança desempenho de ponta em uma lista de benchmarks de resposta a perguntas visuais e raciocínio médico. Os códigos estão disponíveis no GitHub - manglu097/Chiron-o1: Aprimorando o Raciocínio Médico Passo a Passo e Verificável em MLLMs.
A geração de imagens multi-visão a partir de instruções humanas é crucial para a criação de conteúdo 3D. Os principais desafios envolvem manter a consistência entre múltiplas visões e sintetizar efetivamente formas e texturas sob diversas condições. Neste artigo, propomos o método Multi-View Auto-Regressive (MV-AR), que utiliza um modelo auto-regressivo para gerar progressivamente imagens multi-visão consistentes a partir de prompts arbitrários. Primeiramente, a capacidade de previsão do próximo token do modelo AR aumenta significativamente sua eficácia na síntese progressiva de multi-visões. Ao gerar visões amplamente separadas, o MV-AR pode utilizar todas as suas visões anteriores para extrair informações de referência eficazes. Em seguida, propomos um modelo unificado que acomoda vários prompts por meio de estratégias de design de arquitetura e treinamento. Para lidar com múltiplas condições, introduzimos módulos de injeção de condições para texto, pose da câmera, imagem e forma. Para gerenciar condições multi-modais simultaneamente, uma estratégia de treinamento progressivo é empregada. Essa estratégia inicialmente adota o modelo text-to-multi-view (t2mv) como linha de base para aprimorar o desenvolvimento de um modelo abrangente X-to-multi-view (X2mv) por meio da eliminação e combinação aleatória de condições. Por fim, para aliviar o problema de overfitting causado por dados de alta qualidade limitados, propomos a técnica de aumento de dados "Shuffle View", expandindo significativamente os dados de treinamento em várias magnitudes. Experimentos demonstram o desempenho e a versatilidade do nosso MV-AR, que gera consistentemente imagens multi-visão consistentes em uma variedade de condições e tem um desempenho comparável aos principais modelos de geração de imagens multi-visão baseados em difusão. Códigos e modelos serão disponibilizados em https://github.com/MILab-PKU/MVAR.
Modelos de recompensa (RMs) são fundamentais para alinhar Modelos de Linguagem de Grande Escala (LLMs) por meio de feedback humano, mas frequentemente sofrem com o problema de "reward hacking". Eles tendem a se fixar em atributos superficiais ou espúrios, como o comprimento da resposta ou a formatação, confundindo essas pistas aprendidas a partir de correlações nos dados de treinamento com os verdadeiros fatores causais de qualidade (por exemplo, factualidade, relevância). Isso ocorre porque os objetivos padrão de treinamento têm dificuldade em separar esses fatores, resultando em RMs frágeis e políticas desalinhadas. Introduzimos o Crome (Modelagem de Recompensa Causalmente Robusta), uma nova estrutura baseada em um modelo causal explícito projetado para mitigar o reward hacking. O Crome emprega as seguintes ampliações sintéticas direcionadas durante o treinamento: (1) Ampliações Causais, que são pares que diferem em atributos causais específicos, para reforçar a sensibilidade a cada atributo causal individualmente, e (2) Ampliações Neutras, que são pares com rótulos de empate que variam principalmente em atributos espúrios, para reforçar a invariância em relação a atributos espúrios. Notavelmente, nossas ampliações são produzidas sem qualquer conhecimento prévio de fatores espúrios, por meio de intervenções apenas em rubricas causais, que são identificadas consultando um LLM oráculo. Empiricamente, o Crome supera significativamente as linhas de base padrão no RewardBench, melhorando a precisão média em até 5,4% e alcançando ganhos de até 13,2% e 7,2% em categorias específicas. A robustez do Crome é ainda mais comprovada pelos ganhos consistentes obtidos em uma configuração de inferência Best-of-N com N crescente, em vários benchmarks, incluindo o popular RewardBench (que abrange tarefas de chat, chat-hard, segurança e raciocínio), o WildGuardTest focado em segurança e o GSM8k específico para raciocínio.
Este artigo apresenta o FinCoT, uma abordagem estruturada de prompting de cadeia de pensamento (CoT) que incorpora insights do raciocínio especializado em finanças para orientar os traços de raciocínio de grandes modelos de linguagem. Investigamos que existem três principais estilos de prompting em FinNLP: (1) prompting padrão--prompting zero-shot; (2) CoT não estruturado--prompting CoT sem uma estrutura de raciocínio explícita, como o uso de tags; e (3) prompting CoT estruturado--prompting CoT com instruções ou exemplos explícitos que definem etapas estruturadas de raciocínio. Anteriormente, o FinNLP focou principalmente na engenharia de prompts com prompting padrão ou CoT não estruturado. No entanto, o prompting CoT estruturado recebeu atenção limitada em trabalhos anteriores. Além disso, o design de estruturas de raciocínio no prompting CoT estruturado é frequentemente baseado em heurísticas de não especialistas do domínio. Neste estudo, investigamos cada abordagem de prompting em FinNLP. Avaliamos os três principais estilos de prompting e o FinCoT em questões no estilo CFA abrangendo dez domínios financeiros. Observamos que o FinCoT melhora o desempenho de 63,2% para 80,5% e o Qwen-2.5-7B-Instruct de 69,7% para 74,2%, enquanto reduz os tokens gerados em oito vezes em comparação com o prompting CoT estruturado. Nossos resultados mostram que prompts estruturados alinhados ao domínio não apenas melhoram o desempenho e reduzem os custos de inferência, mas também produzem traços de raciocínio mais interpretáveis e alinhados com especialistas.
O DeepSeek-R1 aprimorou com sucesso as capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) por meio de seu sistema de recompensas baseado em regras. Embora seja um sistema de recompensa "perfeito" que mitiga efetivamente o hacking de recompensas, tais funções de recompensa são frequentemente discretas. Nossas observações experimentais sugerem que recompensas discretas podem levar a anomalias de gradiente, otimização instável e convergência lenta. Para resolver esse problema, propomos o ReDit (Reward Dithering), um método que modula o sinal de recompensa discreta adicionando ruído aleatório simples. Com essa recompensa perturbada, gradientes exploratórios são fornecidos continuamente ao longo do processo de aprendizado, permitindo atualizações de gradiente mais suaves e acelerando a convergência. O ruído injetado também introduz estocasticidade em regiões de recompensa plana, incentivando o modelo a explorar novas políticas e escapar de ótimos locais. Experimentos em diversas tarefas demonstram a eficácia e eficiência do ReDit. Em média, o ReDit alcança desempenho comparável ao GRPO padrão com apenas aproximadamente 10% das etapas de treinamento e, além disso, ainda exibe uma melhoria de desempenho de 4% em relação ao GRPO padrão quando treinado por um período similar. Visualizações confirmam uma mitigação significativa dos problemas de gradiente com o ReDit. Além disso, análises teóricas são fornecidas para validar ainda mais essas vantagens.
A recente mudança nas aplicações de IA Generativa (GenAI) de ambientes exclusivamente em nuvem para dispositivos de usuários finais introduz novos desafios em gerenciamento de recursos, eficiência do sistema e experiência do usuário. Este artigo apresenta o ConsumerBench, uma estrutura abrangente de benchmarking projetada para avaliar a eficiência do sistema e o tempo de resposta de modelos GenAI em execução em dispositivos de usuários finais. Diferente dos benchmarks existentes, que assumem acesso exclusivo ao modelo em GPUs dedicadas, o ConsumerBench simula cenários realistas de múltiplas aplicações executando concorrentemente em hardware limitado. Além disso, o ConsumerBench suporta fluxos de trabalho personalizáveis que simulam tarefas complexas exigindo coordenação entre múltiplas aplicações. O ConsumerBench captura tanto métricas no nível da aplicação, incluindo latência e alcance de Objetivos de Nível de Serviço (SLO), quanto métricas no nível do sistema, como utilização de CPU/GPU e largura de banda de memória. Por meio de extensos experimentos, o ConsumerBench revela ineficiências no compartilhamento de recursos, agendamento injusto sob alocação gananciosa e armadilhas de desempenho em configurações estáticas de servidores de modelos. O artigo também fornece insights práticos para desenvolvedores de modelos e projetistas de sistemas, destacando os benefícios de kernels personalizados adaptados a arquiteturas de GPUs de nível consumidor e o valor da implementação de estratégias de agendamento conscientes de SLO.
Podemos escalar o pré-treinamento 4D para aprender representações espaço-temporais gerais que reconstroem um objeto a partir de algumas visualizações em determinados momentos para qualquer visualização em qualquer momento? Apresentamos uma resposta afirmativa com o 4D-LRM, o primeiro modelo de reconstrução 4D em larga escala que recebe entradas de visualizações e timestamps não restritos e renderiza combinações arbitrárias de novas visualizações e tempos. Diferente de abordagens 4D anteriores, como as baseadas em otimização, geometria ou geração, que enfrentam desafios de eficiência, generalização ou fidelidade, o 4D-LRM aprende uma representação espaço-temporal unificada e prevê diretamente primitivas Gaussianas 4D por pixel a partir de tokens de imagens posicionadas ao longo do tempo, permitindo renderização rápida e de alta qualidade, em princípio, com taxa de quadros infinita. Nossos resultados demonstram que a escalabilidade do pré-treinamento espaço-temporal possibilita uma reconstrução 4D precisa e eficiente. Mostramos que o 4D-LRM generaliza para novos objetos, interpola ao longo do tempo e lida com diversas configurações de câmera. Ele reconstrói sequências de 24 quadros em uma única passada direta em menos de 1,5 segundos em uma única GPU A100.
Este trabalho investiga se a ativação de subespaços latentes em modelos de linguagem (LLMs) pode direcionar a geração de código científico para uma linguagem de programação específica. Cinco LLMs causais foram inicialmente avaliados em prompts de codificação científica para quantificar seu viés de base entre quatro linguagens de programação. Um método estático de atribuição de neurônios, que perturba o peso MLP mais ativado para um token C++ ou CPP, mostrou-se frágil e exibiu generalização limitada entre estilos de prompt e escalas de modelo. Para superar essas limitações, foi desenvolvido um framework de direcionamento adaptativo refinado por gradiente (G-ACT): diferenças de ativação por prompt são agrupadas em um pequeno conjunto de direções de direcionamento, e sondas leves por camada são treinadas e refinadas online para selecionar o vetor de direcionamento apropriado. No LLaMA-3.2 3B, essa abordagem direciona de forma confiável a geração para a linguagem CPP, aumentando a precisão média de classificação da sonda em 15% e melhorando a precisão de classificação da sonda nas camadas iniciais (0-6) em 61,5% em comparação com o framework ACT padrão. Para o LLaMA-3.3 70B, onde os sinais das cabeças de atenção se tornam mais difusos, injeções direcionadas em camadas-chave ainda melhoram a seleção de linguagem. Embora a sondagem por camada introduza uma sobrecarga modesta de inferência, ela permanece prática ao direcionar apenas um subconjunto de camadas e permite um comportamento de modelo reproduzível. Esses resultados demonstram um mecanismo escalável, interpretável e eficiente para controle em nível de conceito em sistemas agentes práticos.
Apesar de suas capacidades impressionantes, grandes modelos de linguagem (LLMs) alinhados frequentemente geram saídas que carecem de diversidade. O que impulsiona essa estabilidade na geração? Investigamos esse fenômeno através da lente da concentração de probabilidade na distribuição de saída do modelo. Para quantificar essa concentração, introduzimos o Fator de Ramificação (Branching Factor, BF) — uma medida invariante ao token do número efetivo de próximos passos plausíveis durante a geração. Nossa análise empírica revela duas descobertas principais: (1) O BF frequentemente diminui à medida que a geração avança, sugerindo que os LLMs se tornam mais previsíveis conforme geram. (2) O ajuste de alinhamento afia substancialmente a distribuição de saída do modelo desde o início, reduzindo o BF em quase uma ordem de grandeza (por exemplo, de 12 para 1,2) em relação aos modelos base. Essa redução drástica ajuda a explicar por que modelos alinhados frequentemente parecem menos sensíveis a estratégias de decodificação. Com base nessa percepção, descobrimos que essa estabilidade tem implicações surpreendentes para o raciocínio complexo. Modelos alinhados de Cadeia de Pensamento (Chain-of-Thought, CoT) (por exemplo, modelos destilados do DeepSeek), por exemplo, aproveitam esse efeito; ao gerar cadeias de raciocínio mais longas, eles empurram a geração para estágios posteriores, mais determinísticos (com BF mais baixo), resultando em saídas mais estáveis. Nossa hipótese é que o ajuste de alinhamento não muda fundamentalmente o comportamento de um modelo, mas sim o direciona para tokens estilísticos (por exemplo, "Claro") que desbloqueiam trajetórias de baixa entropia já presentes no modelo base. Essa visão é apoiada por experimentos de indução, que mostram que a solicitação de modelos base com esses tokens pode reduzir o BF de forma semelhante. Juntos, nossos resultados estabelecem o BF como uma ferramenta diagnóstica poderosa para entender e controlar as saídas de LLMs — esclarecendo como o alinhamento reduz a variabilidade, como o CoT promove gerações estáveis e como os modelos base podem ser direcionados para longe da diversidade.
Autoencoders Esparsos (SAEs) surgiram como uma solução promissora para decompor as representações de grandes modelos de linguagem em características interpretáveis. No entanto, Paulo e Belrose (2025) destacaram instabilidades em diferentes sementes de inicialização, e Heap et al. (2025) apontaram que os SAEs podem não capturar características internas do modelo. Esses problemas provavelmente decorrem do treinamento de SAEs em conjuntos de dados externos — seja coletados da Web ou gerados por outro modelo — que podem conter dados fora da distribuição (OOD, do inglês *out-of-distribution*) além das capacidades de generalização do modelo. Isso pode resultar em características de SAE alucinadas, que denominamos "Características Falsas", que distorcem as ativações internas do modelo. Para abordar esses problemas, propomos o FaithfulSAE, um método que treina SAEs no próprio conjunto de dados sintético do modelo. Usando FaithfulSAEs, demonstramos que o treinamento de SAEs em conjuntos de dados de instruções menos OOD resulta em SAEs mais estáveis entre diferentes sementes. Notavelmente, os FaithfulSAEs superam os SAEs treinados em conjuntos de dados baseados na Web na tarefa de sondagem de SAE e exibem uma Taxa de Características Falsas menor em 5 de 7 modelos. No geral, nossa abordagem elimina a dependência de conjuntos de dados externos, avançando a interpretabilidade ao capturar melhor as características internas do modelo, ao mesmo tempo em que destaca a importância frequentemente negligenciada dos conjuntos de dados de treinamento de SAEs.
Modelos de Linguagem de Grande Escala (LLMs) são cada vez mais utilizados em aplicações que exigem contextos longos, mas o cache de chave-valor (KV) frequentemente se torna um gargalo de memória em GPUs à medida que o contexto aumenta. Para resolver isso, propomos a Quantização Vetorial Comutativa (CommVQ) para reduzir significativamente o uso de memória na inferência de LLMs com contextos longos. Primeiro, introduzimos a quantização aditiva com um codificador leve e um codebook para comprimir o cache KV, que pode ser decodificado por meio de uma simples multiplicação de matrizes. Para reduzir ainda mais os custos computacionais durante a decodificação, projetamos o codebook para ser comutativo com o Embedding de Posição Rotacional (RoPE) e o treinamos usando um algoritmo de Expectation-Maximization (EM). Isso permite a integração eficiente da decodificação no mecanismo de auto-atenção. Nossa abordagem alcança alta precisão com quantização aditiva e baixa sobrecarga por meio do codebook comutativo com RoPE. Experimentos em benchmarks de contexto longo e GSM8K mostram que nosso método reduz o tamanho do cache KV FP16 em 87,5% com quantização de 2 bits, superando os métodos de quantização de cache KV mais avançados. Notavelmente, ele permite a quantização de 1 bit do cache KV com perda mínima de precisão, permitindo que um modelo LLaMA-3.1 8B funcione com um contexto de 128K em uma única GPU RTX 4090. O código-fonte está disponível em: https://github.com/UMass-Embodied-AGI/CommVQ.
A detecção de código gerado por IA, deepfakes e outros conteúdos sintéticos é um desafio emergente na pesquisa. À medida que o código gerado por Modelos de Linguagem de Grande Escala (LLMs) se torna mais comum, identificar o modelo específico por trás de cada amostra é cada vez mais importante. Este artigo apresenta o primeiro estudo sistemático de atribuição de autoria de LLMs para programas em C. Lançamos o CodeT5-Authorship, um modelo inovador que utiliza apenas as camadas do codificador da arquitetura original encoder-decoder do CodeT5, descartando o decodificador para focar na classificação. A saída do codificador do nosso modelo (primeiro token) é passada por uma cabeça de classificação de duas camadas com ativação GELU e dropout, produzindo uma distribuição de probabilidade sobre os possíveis autores. Para avaliar nossa abordagem, introduzimos o LLM-AuthorBench, um benchmark de 32.000 programas em C compiláveis gerados por oito LLMs de ponta em diversas tarefas. Comparamos nosso modelo a sete classificadores tradicionais de aprendizado de máquina e oito modelos transformadores ajustados, incluindo BERT, RoBERTa, CodeBERT, ModernBERT, DistilBERT, DeBERTa-V3, Longformer e Qwen2-1.5B ajustado com LoRA. Na classificação binária, nosso modelo alcança 97,56% de precisão na distinção de programas em C gerados por modelos estreitamente relacionados, como GPT-4.1 e GPT-4o, e 95,40% de precisão para atribuição multiclasse entre cinco LLMs líderes (Gemini 2.5 Flash, Claude 3.5 Haiku, GPT-4.1, Llama 3.3 e DeepSeek-V3). Para apoiar a ciência aberta, disponibilizamos a arquitetura do CodeT5-Authorship, o benchmark LLM-AuthorBench e todos os scripts relevantes do Google Colab no GitHub: https://github.com/LLMauthorbench/.
Os recentes avanços em modelos de linguagem de grande escala (LLMs) levaram a progressos notáveis no processamento de linguagem natural, mas suas demandas computacionais e de memória continuam sendo um desafio significativo, especialmente para inferência de contexto longo. Apresentamos o TPTT (Transforming Pretrained Transformer into Titans), uma nova estrutura para aprimorar modelos Transformer pré-treinados com mecanismos de atenção linearizada eficientes e gerenciamento avançado de memória. O TPTT emprega técnicas como Memory as Gate (MaG) e atenção linearizada mista (LiZA). Ele é totalmente compatível com a biblioteca Hugging Face Transformers, permitindo a adaptação contínua de qualquer LLM causal por meio de ajuste fino eficiente em parâmetros (LoRA) sem a necessidade de retreinamento completo. Demonstramos a eficácia do TPTT no benchmark MMLU com modelos de aproximadamente 1 bilhão de parâmetros, observando melhorias substanciais tanto em eficiência quanto em precisão. Por exemplo, o Titans-Llama-3.2-1B alcança um aumento de 20% no Exact Match (EM) em relação à sua linha de base. Análises estatísticas e comparações com métodos recentes de ponta confirmam a escalabilidade prática e a robustez do TPTT. O código está disponível em https://github.com/fabienfrfr/tptt. O pacote Python está disponível em https://pypi.org/project/tptt/.
Modelos Multimodais de Grande Escala (MLLMs) recentes se destacam em tarefas de referência de visão e linguagem, mas pouco se sabe sobre como a qualidade visual da entrada molda suas respostas. Será que uma maior qualidade perceptual das imagens já se traduz em uma melhor compreensão por parte dos MLLMs? Realizamos o primeiro estudo sistemático abrangendo os principais MLLMs e uma série de benchmarks de visão e linguagem, aplicando degradações controladas e mudanças estilísticas a cada imagem. Surpreendentemente, descobrimos um paradoxo de qualidade visual: o desempenho do modelo, da tarefa e até mesmo de instâncias individuais pode melhorar quando as imagens se desviam da fidelidade percebida por humanos. Pipelines de restauração prontas para uso não conseguem reconciliar essas preferências idiossincráticas. Para fechar essa lacuna, introduzimos o Ajuste em Tempo de Teste de Qualidade Visual (VQ-TTT) — um módulo de adaptação leve que: (1) insere um kernel de baixa ordem aprendível antes do codificador visual congelado para modular o conteúdo de frequência; e (2) ajusta finamente apenas as camadas superficiais do codificador visual via LoRA. O VQ-TTT ajusta dinamicamente cada imagem de entrada em uma única passagem direta, alinhando-a com as preferências específicas da tarefa do modelo. Em todos os MLLMs avaliados e em todos os conjuntos de dados, o VQ-TTT aumenta significativamente a precisão média, sem a necessidade de modelos externos, recursos armazenados em cache ou dados de treinamento adicionais. Essas descobertas redefinem o que são entradas visuais "melhores" para MLLMs e destacam a necessidade de imagens adaptativas, em vez de universalmente "limpas", nesta nova era em que a IA é o principal consumidor de dados.
A visualização de histórias tornou-se uma tarefa popular na qual cenas visuais são geradas para representar uma narrativa em múltiplos painéis. Um desafio central nesse contexto é manter a consistência visual, especialmente em como os personagens e objetos persistem e evoluem ao longo da história. Apesar dos recentes avanços nos modelos de difusão, as abordagens atuais frequentemente falham em preservar atributos-chave dos personagens, resultando em narrativas incoerentes. Neste trabalho, propomos uma estrutura colaborativa de multiagentes que identifica, corrige e refina automaticamente inconsistências em visualizações de histórias com múltiplos painéis. Os agentes operam em um loop iterativo, permitindo atualizações detalhadas em nível de painel sem a necessidade de regenerar sequências inteiras. Nossa estrutura é independente de modelo e integra-se de forma flexível com uma variedade de modelos de difusão, incluindo transformadores de fluxo retificado, como o Flux, e modelos de difusão latente, como o Stable Diffusion. Experimentos quantitativos e qualitativos mostram que nosso método supera abordagens anteriores em termos de consistência em múltiplos painéis.
A resposta visual a perguntas médicas visa apoiar a tomada de decisão clínica, permitindo que modelos respondam a perguntas em linguagem natural com base em imagens médicas. Embora avanços recentes em aprendizado multimodal tenham melhorado significativamente o desempenho, os métodos atuais ainda sofrem com confiabilidade limitada das respostas e baixa interpretabilidade, prejudicando a capacidade de clínicos e pacientes de entender e confiar nas respostas geradas pelos modelos. Para abordar isso, este trabalho propõe, em primeiro lugar, um conjunto de dados chamado Thinking with Visual Grounding (ThinkVG), no qual a geração de respostas é decomposta em etapas intermediárias de raciocínio que explicitamente fundamentam regiões visuais relevantes da imagem médica, fornecendo assim explicabilidade em nível detalhado. Além disso, introduzimos um novo mecanismo de recompensa verificável para aprendizado por reforço, a fim de orientar o pós-treinamento, melhorando o alinhamento entre o processo de raciocínio do modelo e sua resposta final. Notavelmente, nosso método alcança desempenho comparável utilizando apenas um oitavo dos dados de treinamento, demonstrando a eficiência e eficácia da proposta. O conjunto de dados está disponível em https://huggingface.co/datasets/BoKelvin/GEMeX-ThinkVG.
Avanços recentes em modelos fundamentais de música têm aprimorado o aprendizado de representação de áudio, mas sua eficácia em diversas tradições musicais ainda é limitada. Apresentamos o CultureMERT-95M, um modelo fundamental adaptado multiculturalmente, desenvolvido para melhorar o aprendizado e a compreensão de representações musicais transculturais. Para isso, propomos uma estratégia de pré-treinamento contínuo em duas etapas que integra reaquecimento e redução gradual da taxa de aprendizado, permitindo uma adaptação estável mesmo com recursos computacionais limitados. O treinamento em um conjunto de dados multiculturais de 650 horas, composto por tradições musicais gregas, turcas e indianas, resulta em uma melhoria média de 4,9% em ROC-AUC e AP em diversas tarefas de autotagging de música não ocidental, superando os melhores modelos anteriores, com esquecimento mínimo em benchmarks centrados na música ocidental. Investigamos ainda a aritmética de tarefas, uma abordagem alternativa para adaptação multicultural que combina modelos adaptados a culturas únicas no espaço de pesos. A aritmética de tarefas tem desempenho equivalente ao nosso modelo treinado multiculturalmente em tarefas de autotagging não ocidental e não apresenta regressão em conjuntos de dados ocidentais. A avaliação transcultural revela que modelos de cultura única transferem com eficácia variada entre tradições musicais, enquanto o modelo adaptado multiculturalmente alcança o melhor desempenho geral. Para apoiar a pesquisa em aprendizado de representação de música mundial, disponibilizamos publicamente o CultureMERT-95M e o CultureMERT-TA-95M, promovendo o desenvolvimento de modelos fundamentais de música mais conscientes culturalmente.
Os Modelos de Linguagem de Grande Escala (LLMs) alcançaram progressos notáveis, mas sua implantação expôs vulnerabilidades críticas, especialmente a ataques de jailbreak que contornam mecanismos de segurança. Guardrails—mecanismos de defesa externos que monitoram e controlam a interação com LLMs—emergiram como uma solução promissora. No entanto, o cenário atual de guardrails para LLMs é fragmentado, carecendo de uma taxonomia unificada e de um framework de avaliação abrangente. Neste artigo de Sistematização do Conhecimento (SoK), apresentamos a primeira análise holística de guardrails contra jailbreak para LLMs. Propomos uma nova taxonomia multidimensional que categoriza os guardrails ao longo de seis dimensões-chave e introduzimos um framework de avaliação Segurança-Eficiência-Utilidade para mensurar sua eficácia prática. Por meio de análises e experimentos extensivos, identificamos os pontos fortes e as limitações das abordagens de guardrail existentes, exploramos sua universalidade em diferentes tipos de ataques e oferecemos insights para otimizar combinações de defesa. Nosso trabalho fornece uma base estruturada para pesquisas e desenvolvimentos futuros, visando orientar o avanço e a implantação principled de guardrails robustos para LLMs. O código está disponível em https://github.com/xunguangwang/SoK4JailbreakGuardrails.
Modelos de linguagem multimodal de grande escala (MLLMs) recentes frequentemente enfrentam dificuldades para gerar legendas de imagens personalizadas, mesmo quando treinados com legendas de alta qualidade. Neste trabalho, observamos que tais limitações persistem nos métodos existentes de personalização de MLLMs baseados em pós-treinamento. Especificamente, apesar de serem ajustados com grandes volumes de dados de legendas por meio de ajuste fino supervisionado (SFT), esses modelos frequentemente falham em produzir descrições fiéis em cenários do mundo real, como a geração de legendas para imagens com múltiplos conceitos. No entanto, adquirir legendas em grande escala e de alta qualidade para tais cenários complexos é tanto custoso quanto difícil. Para abordar a natureza centrada em dados do SFT, propomos uma estrutura de pós-treinamento baseada em aprendizado por reforço (RL). Até onde sabemos, esta é a primeira abordagem baseada em RL para pós-treinar MLLMs visando a geração de legendas de imagens personalizadas. Nosso método melhora significativamente tanto as capacidades de reconhecimento visual quanto de geração personalizada dos MLLMs, e consistentemente supera as abordagens baselines baseadas em SFT, especialmente na tarefa desafiadora de geração de legendas para imagens com múltiplos conceitos.
A mortalidade neonatal ainda é uma realidade preocupante em países subdesenvolvidos e até mesmo em alguns países desenvolvidos. Dados globais indicam que 26,693 bebês em cada 1.000 nascimentos morrem, de acordo com a Macro Trades. Para reduzir esse número, a previsão precoce de bebês em risco é crucial. Essa previsão permite a oportunidade de fornecer cuidados adequados à criança e à mãe, de modo que a morte precoce do bebê possa ser evitada. Nesse contexto, o aprendizado de máquina foi utilizado para determinar se um recém-nascido está em risco. Para treinar o modelo preditivo, foram utilizados dados históricos de 1,4 milhão de recém-nascidos. Técnicas de aprendizado de máquina e aprendizado profundo, como regressão logística, K-vizinhos mais próximos, classificador de floresta aleatória, boosting de gradiente extremo (XGBoost), rede neural convolucional e memória de longo e curto prazo (LSTM), foram implementadas usando o conjunto de dados para identificar o modelo mais preciso para prever a mortalidade neonatal. Entre os algoritmos de aprendizado de máquina, XGBoost e o classificador de floresta aleatória alcançaram a melhor precisão, com 94%, enquanto entre os modelos de aprendizado profundo, a LSTM obteve a maior precisão, com 99%. Portanto, o uso da LSTM parece ser a abordagem mais adequada para prever se medidas preventivas para uma criança são necessárias.
Apesar dos recentes avanços na geração de código RTL de hardware com LLMs, as soluções existentes ainda enfrentam uma lacuna substancial entre os cenários de aplicação prática e os requisitos do desenvolvimento real de código RTL. As abordagens anteriores focam em descrições de hardware excessivamente simplificadas ou dependem de orientação humana extensa para processar especificações complexas, limitando sua escalabilidade e potencial de automação. Neste artigo, abordamos essa lacuna propondo um sistema de agente LLM, denominado Spec2RTL-Agent, projetado para processar diretamente documentação de especificações complexas e gerar implementações de código RTL correspondentes, avançando a geração de código RTL baseada em LLM para cenários de aplicação mais realistas. Para atingir esse objetivo, o Spec2RTL-Agent introduz um novo framework de colaboração multiagente que integra três facilitadores principais: (1) um módulo de raciocínio e compreensão que traduz especificações em planos de implementação estruturados e passo a passo; (2) um módulo de codificação progressiva e otimização de prompts que refina iterativamente o código em múltiplas representações para melhorar a correção e a sintetizabilidade para conversão RTL; e (3) um módulo de reflexão adaptativa que identifica e rastreia a origem de erros durante a geração, garantindo um fluxo de geração de código mais robusto. Em vez de gerar RTL diretamente a partir de linguagem natural, nosso sistema gera estrategicamente código C++ sintetizável, que é então otimizado para HLS. Esse refinamento orientado por agentes garante maior correção e compatibilidade em comparação com abordagens ingênuas de geração direta de RTL. Avaliamos o Spec2RTL-Agent em três documentos de especificação, mostrando que ele gera código RTL preciso com até 75% menos intervenções humanas do que os métodos existentes. Isso destaca seu papel como o primeiro sistema multiagente totalmente automatizado para geração de RTL a partir de especificações não estruturadas, reduzindo a dependência do esforço humano no design de hardware.