Artigos de pesquisa em IA selecionados diariamente com traduções
Apesar dos rápidos avanços no reconhecimento automático de fala (ASR) e nos grandes modelos de áudio-linguagem, o reconhecimento robusto em ambientes do mundo real ainda é limitado por um "gargalo de robustez acústica": os modelos frequentemente perdem a ancoragem acústica e produzem omissões ou alucinações sob distorções severas e composicionais. Propomos o Mega-ASR, uma estrutura unificada de ASR em cenários reais que combina construção escalável de dados compostos com otimização progressiva acústico-semântica. Apresentamos o Voices-in-the-Wild-2M, cobrindo 7 fenômenos acústicos clássicos e 54 cenários compostos fisicamente plausíveis, e treinamos o Mega-ASR com Ajuste Fino Supervisionado Progressivo Acústico-Semântico e Otimização de Política com Gate de WER de Dupla Granularidade. Extensos experimentos demonstram que o Mega-ASR alcança vantagens significativas sobre sistemas anteriores de última geração em benchmarks de ASR em condições adversas (45,69% vs. 54,01% no VOiCES R4-B-F, e 21,49% vs. 29,34% no NOIZEUS Sta-0). Em cenários acústicos composicionais complexos, o Mega-ASR proporciona ainda uma redução relativa de WER de mais de 30% em relação a fortes baselines de código aberto e fechado, estabelecendo um paradigma escalável para ASR robusto em cenários reais.
Avanços recentes em modelos de linguagem grandes multimodais têm impulsionado o crescente interesse em agentes de interface gráfica do usuário (GUI), mas sua generalização ainda é limitada pela escassez de dados de treinamento em larga escala que abranjam diversas aplicações do mundo real. Conjuntos de dados existentes dependem fortemente de anotações manuais custosas e geralmente se restringem a domínios estreitos. Para enfrentar esse desafio, propomos o Video2GUI, uma estrutura totalmente automatizada que extrai trajetórias de interação GUI fundamentadas diretamente de vídeos da Internet não rotulados. O Video2GUI emprega uma estratégia de filtragem de grosseiro a fino para identificar vídeos tutoriais GUI de alta qualidade e convertê-los em trajetórias estruturadas de agente. Aplicando esse pipeline a 500 milhões de entradas de metadados de vídeo, construímos o WildGUI, um conjunto de dados em larga escala contendo 12 milhões de trajetórias de interação abrangendo mais de 1.500 aplicativos e sites. O pré-treinamento do Qwen2.5-VL e do Mimo-VL no WildGUI resulta em melhorias consistentes de 5 a 20% em vários benchmarks de fundamentação e ação GUI, igualando ou superando o desempenho de ponta. Disponibilizaremos tanto o conjunto de dados WildGUI quanto o pipeline Video2GUI para apoiar futuras pesquisas sobre agentes GUI.
Sem incorrer em custo computacional significativo, a geração de vídeos longos sem treinamento visa capacitar modelos fundamentais de geração de vídeos a produzir vídeos mais longos. Arcabouços autorregressivos em nível de quadro, como o FIFO-diffusion, oferecem a vantagem de gerar vídeos infinitamente longos com consumo constante de memória. No entanto, a incompatibilidade entre treinamento e inferência, aliada ao desafio de manter a consistência de longo prazo, limita a utilização eficaz dos modelos fundamentais. Para mitigar essas preocupações, propomos o MIGA, um método inovador de geração de vídeos longos com quadros infinitos. Primeiramente, propomos um mecanismo de alinhamento em dois estágios que reduz a lacuna entre treinamento e inferência ao diminuir o intervalo excessivo de ruído alimentado ao modelo. Em seguida, introduzimos um mecanismo inovador de dupla melhoria de consistência, onde a abordagem de autorreflexão corrige quadros iniciais com alto ruído e a abordagem de orientação por quadros de longo alcance utiliza quadros posteriores com baixo ruído e ampla cobertura para direcionar a geração, melhorando conjuntamente a consistência temporal. Experimentos extensivos no VBench e no NarrLV demonstram o desempenho de ponta do MIGA. Nossa página do projeto está disponível em https://xiaokunfeng.github.io/miga_homepage/.
Modelos de linguagem de grande escala multimodais (MLLMs) têm demonstrado capacidade notável em conectar percepção visual e raciocínio textual, possibilitando compreensão zero-shot em diversos cenários industriais. No entanto, seu desempenho na detecção de anomalias industriais (IAD) de vocabulário aberto é frequentemente limitado por raciocínios desalinhados ao domínio e inferências estruturais alucinadas. Para enfrentar esses desafios, propomos o IndusAgent, um framework agentivo aumentado por ferramentas para IAD de vocabulário aberto. Especificamente, primeiro construímos o Indus-CoT, um conjunto de dados estruturado que integra observações visuais globais, patches locais de alta resolução e prioridades de normalidade de especialistas, fornecendo supervisão para o ajuste fino do modelo em trajetórias rigorosas de inspeção industrial. Com base nisso, o IndusAgent orquestra dinamicamente um conjunto de ferramentas externas, incluindo recorte dinâmico de regiões, aprimoramento de características de alta frequência e recuperação de prioridades, permitindo que o agente resolva ativamente ambiguidades visuais e desvende anomalias sutis. Além disso, introduzimos um objetivo de aprendizado por reforço com portas que otimiza conjuntamente a classificação de anomalias, a precisão da localização, o raciocínio sobre o tipo de anomalia e o uso eficiente de ferramentas, garantindo que a invocação de ferramentas ocorra apenas quando benéfica. Avaliações extensivas em cinco benchmarks de anomalias industriais, incluindo MVTec-AD, VisA, MPDD, DTD e SDD, demonstram que o IndusAgent alcança desempenho zero-shot de ponta entre todos os métodos existentes, validando nossa robustez e capacidade de generalização.
O aprendizado por reforço com recompensas verificáveis (RLVR, do inglês *Reinforcement Learning with Verifiable Rewards*) tornou-se um paradigma dominante para melhorar o raciocínio em grandes modelos de linguagem (LLMs, do inglês *Large Language Models*); no entanto, a geometria subjacente das trajetórias dos parâmetros resultantes permanece pouco explorada. Neste trabalho, demonstramos que as trajetórias dos pesos do RLVR são extremamente de baixo posto e altamente previsíveis. Especificamente, descobrimos que a maioria dos ganhos de desempenho downstream é capturada por uma aproximação de posto 1 dos deltas dos parâmetros, onde a magnitude dessa projeção evolui de forma quase linear com as etapas de treinamento. Motivados por isso, propomos um método simples e computacionalmente eficiente, o RELEX (do inglês *REinforcement Learning EXtrapolation*), que estima o subespaço de posto 1 a partir de uma janela de observação curta e extrapola futuros checkpoints por meio de regressão linear, sem necessidade de modelo aprendido. Em três modelos (a saber, Qwen2.5-Math-1.5B, Qwen3-4B-Base e Qwen3-8B-Base), o RELEX produz checkpoints que igualam ou superam o desempenho do RLVR tanto em benchmarks dentro quanto fora do domínio, exigindo apenas 15% das etapas do treinamento completo do RLVR. Notavelmente, o RELEX é capaz de extrapolar muito além da janela de observação sem custo de treinamento, prevendo checkpoints até 10 a 20 vezes além do prefixo observado, com melhoria contínua (por exemplo, observar apenas os primeiros 50 passos e extrapolar para 1000 passos). Nossa análise de ablação confirma a suficiência minimalista do RELEX: nem aumentar o posto do subespaço nem empregar modelagem não linear produz ganhos adicionais na extrapolação. Por fim, mostramos que o sucesso do RELEX decorre de um efeito de "remoção de ruído": ao projetar as atualizações no subespaço de posto 1, o modelo descarta o ruído de otimização estocástica que, de outra forma, degradaria o desempenho durante a extrapolação. Nosso código está disponível em https://github.com/weizhepei/RELEX.
O rápido avanço em direção ao raciocínio de contexto longo e à inteligência multimodal tornou a pegada de memória do cache de Chave-Valor (KV) um gargalo de memória dominante para a implantação eficiente. Embora a quantização estabelecida por canal acomode efetivamente outliers intrínsecos por canal nos tensores de Chave, sua eficácia diminui sob compressão extrema. Neste trabalho, revisitamos as limitações inerentes ao paradigma de quantização por canal a partir de perspectivas empíricas e teóricas. Nossa análise identifica o Desequilíbrio de Norma de Token (TNI) como o principal gargalo para a fidelidade da quantização. Demonstramos que o TNI amplifica sistematicamente erros quando parâmetros de quantização compartilhados precisam abranger grupos de tokens que exibem disparidades substanciais de norma. Em vez de depender de pipelines de quantização complexas (ex.: TurboQuant), propomos o OScaR (Rotação Canalizada com Escalonamento Omni), uma estrutura precisa e leve de compressão de cache KV para X-LLMs (ou seja, LLMs apenas de texto, multimodais e omnimodais). Avançando o paradigma por canal, o OScaR emprega Rotação Canalizada seguida de Escalonamento Omni-Token para mitigar a variância dimensional de sequência induzida pelo TNI de forma eficaz e eficiente, apoiado adicionalmente por nosso design otimizado de sistema e kernels CUDA. Avaliações extensas em X-LLMs mostram que o OScaR supera consistentemente os métodos existentes e alcança desempenho quase sem perdas sob quantização INT2, estabelecendo-o como uma estrutura robusta, de baixa complexidade e universal que define uma nova fronteira de Pareto. Em comparação com a linha de base BF16 FlashDecoding-v2, nossa implementação OScaR alcança um notável speedup de até 3,0x na decodificação, reduz a pegada de memória em 5,3x e aumenta a taxa de transferência em 4,1x. O código do OScaR está disponível publicamente em https://github.com/ZunhaiSu/OScaR-KV-Quant.
As capacidades fundamentais estabelecidas pelos Grandes Modelos de Linguagem (LLMs) abriram caminho para os Grandes Modelos de Linguagem Multimodais (MLLMs), nos quais os Grandes Modelos de Linguagem de Áudio (LALMs) são essenciais para a realização de uma inteligência auditiva universal. Apesar do seu desempenho notável, a escalada das capacidades dos LALMs superou significativamente o desenvolvimento de estruturas sistêmicas para garantir sua confiabilidade. Esta pesquisa oferece uma investigação abrangente dos mecanismos endógenos dos LALMs, detalhando as inovações arquitetônicas e os algoritmos de alinhamento que facilitam o raciocínio emergente. Especificamente, analisamos como a transição para estruturas unificadas de ponta a ponta e a integração de sinais acústicos contínuos expandem inerentemente a superfície de ataque. Para avaliar rigorosamente os riscos dentro desses paradigmas, estabelecemos uma taxonomia abrangente de confiabilidade, categorizando vulnerabilidades críticas como quebra de restrições entre modalidades, backdoors acústicos latentes e vazamento de privacidade biométrica. Revisamos o estado da arte por meio de seis pilares analíticos: alucinação, robustez, segurança, privacidade, justiça e autenticação. O profundo desequilíbrio entre um cenário ofensivo maduro e defesas subdesenvolvidas valida ainda mais as lacunas críticas de confiabilidade e os riscos multidimensionais que a inteligência centrada em áudio enfrenta. Por fim, propomos um roteiro estratégico que defende arquiteturas de "Defesa em Profundidade", modelagem causal do mundo auditivo e engenharia de representação intrínseca para preencher a lacuna entre o desempenho empírico e uma inteligência auditiva intrinsecamente confiável. Nosso projeto foi enviado para o GitHub em https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
Integridade Contextual (CI) define privacidade não meramente como manter informações ocultas, mas como governar fluxos de informação de acordo com as normas de um determinado contexto. À medida que grandes modelos de linguagem são cada vez mais implantados como agentes pessoais que lidam com fluxos de trabalho sensíveis, a adesão à CI torna-se crítica. No entanto, mesmo modelos de fronteira permanecem não confiáveis em decisões de divulgação, e as estratégias de mitigação existentes geralmente degradam o desempenho da tarefa subjacente. Para superar esse trade-off entre privacidade e utilidade, propomos o SELFCI, uma estrutura complementar de autodestilação que desacopla a supressão de informações da resolução de tarefas. O SELFCI otimiza conjuntamente duas divergências KL reversas independentes sobre distribuições professoras distintas derivadas do feedback: uma encoraja a preservação de informações relevantes para a tarefa em prol da utilidade, enquanto a outra impõe uma divulgação mínima e apropriada. Essa formulação complementar induz um alvo de Produto de Especialistas (PoE), alinhando a política com a interseção dos requisitos de capacidade e privacidade. Avaliações empíricas demonstram que o SELFCI, sem depender de supervisão externa custosa, supera consistentemente linhas de base competitivas, como algoritmos de aprendizado por reforço online (por exemplo, GRPO). Essas tendências se estendem ainda a configurações fora do domínio que envolvem fluxos de trabalho agentivos e contexto privado acumulado, sugerindo que o SELFCI oferece um caminho prático para o alinhamento com a CI.
Mostramos que modelos de base de séries temporais escalam: uma única receita de treinamento produz melhorias confiáveis na qualidade da previsão, de 4M a 2,5B de parâmetros. Lançamos o Toto 2.0, uma família de cinco modelos de previsão com pesos abertos treinados sob essa receita. A família Toto 2.0 estabelece um novo estado da arte em três referenciais de previsão: BOOM, nosso referencial de observabilidade; GIFT-Eval, o referencial padrão de propósito geral; e o recente referencial TIME, resistente a contaminação. Este relatório descreve nossos resultados experimentais e detalha as decisões de projeto por trás do Toto 2.0: sua arquitetura e receita de treinamento, dados de treinamento e o pipeline de transferência de hiperparâmetros u-muP. Todos os cinco checkpoints base são lançados sob licença Apache 2.0.
Agentes de LLM emergiram recentemente como um paradigma poderoso para resolver tarefas complexas por meio de planejamento, uso de ferramentas, recuperação de memória e interação em múltiplas etapas. No entanto, esses fluxos de trabalho agentivos frequentemente introduzem uma sobrecarga substancial no lado de entrada, tornando o estágio de pré-preenchimento, que demanda alta computação, um gargalo chave na inferência de contexto longo e múltiplas iterações. Neste trabalho, propomos Mix-Quant, uma estrutura de quantização simples e eficaz, ciente da fase, para inferência agentiva rápida. Primeiramente, investigamos a quantização FP4 em fluxos de trabalho agentivos de LLM e observamos que quantificar todo o processo de inferência pode incorrer em degradação significativa de desempenho. Em contraste, o estágio de pré-preenchimento exibe redundância substancial de quantização e, portanto, pode ser quantizado com perda mínima de precisão, apesar de ser a fonte dominante de computação. Com base nessa percepção, aplicamos a quantização NVFP4 de alto rendimento à fase de pré-preenchimento, enquanto preservamos a precisão BF16 para a decodificação. Ao dissociar a aceleração do pré-preenchimento da qualidade da decodificação, o Mix-Quant combina quantização algorítmica ciente da fase com execução NVFP4 eficiente em hardware para aliviar o gargalo de inferência em agentes de LLM. Experimentos extensivos em benchmarks de contexto longo e agentivos demonstram que o Mix-Quant preserva em grande parte o desempenho da tarefa, ao mesmo tempo que proporciona ganhos significativos de eficiência, alcançando até 3x de aceleração durante o pré-preenchimento.
Como futuros sistemas de raciocínio neural devem implementar computação estendida? Os Modelos de Raciocínio Recursivo (RRMs) oferecem uma alternativa promissora à extensão sequencial autorregressiva ao realizar refinamento iterativo de estados latentes com funções de transição compartilhadas. No entanto, os RRMs existentes são amplamente determinísticos, seguindo uma única trajetória latente e convergindo para uma única previsão. Apresentamos os Modelos de Raciocínio Recursivo Generativo (GRAM), uma estrutura que transforma o raciocínio recursivo latente em computação probabilística de múltiplas trajetórias. O GRAM modela o raciocínio como uma trajetória latente estocástica, permitindo múltiplas hipóteses, estratégias alternativas de solução e escalonamento em tempo de inferência tanto pela profundidade recursiva quanto pela amostragem paralela de trajetórias. Isso resulta em um modelo generativo de variáveis latentes que suporta raciocínio condicional via \(p_\theta(y \mid x)\) e, com entradas fixas ou ausentes, geração incondicional via \(p_\theta(x)\). Treinado com inferência variacional amortizada, o GRAM supera as bases recorrentes e recursivas determinísticas em tarefas de raciocínio estruturado e satisfação de restrições com múltiplas soluções, ao mesmo tempo que demonstra capacidade de geração incondicional. https://ahn-ml.github.io/gram-website
Embora os agentes de GUI tenham feito progressos significativos na navegação web e em tarefas básicas de sistemas operacionais, suas capacidades em fluxos de trabalho criativos profissionais permanecem em grande parte inexploradas. Para preencher essa lacuna, apresentamos o Cutverse, um benchmark projetado para avaliar sistematicamente agentes autônomos de GUI em ambientes realistas de pós-produção de mídia. Curamos demonstrações de especialistas em 7 aplicações profissionais (ex.: Premiere Pro, Photoshop), abrangendo 186 tarefas complexas e de longo horizonte, baseadas em fluxos de trabalho autênticos de edição, envolvendo interfaces multimodais densas e sequências de interação fortemente acopladas. Para apoiar a avaliação escalável, desenvolvemos um parser leve que transforma gravações de tela brutas e logs de interação de baixo nível em trajetórias estruturadas e composicionais de ações de GUI com ancoragem precisa. Avaliações extensas revelam que os agentes existentes atingem apenas 36,0% de sucesso em tarefas realistas de edição de mídia, destacando os desafios impostos pelos fluxos de trabalho complexos e de longo horizonte de pós-produção de mídia em nosso benchmark. Embora os modelos atuais demonstrem ancoragem espacial promissora, alinhamento multimodal e execução coordenada de ações, eles ainda são limitados em confiabilidade de longo horizonte e planejamento específico de domínio.
Atualmente, o aprimoramento de Modelos Multimodais Unificados (UMMs) com capacidades de compreensão, geração e edição de imagens depende principalmente do treinamento misto multitarefa. Devido a conflitos inerentes entre as tarefas, essa estratégia exige pipelines complexos de múltiplos estágios, mistura massiva de dados e truques de balanceamento, resultando apenas em uma compensação de desempenho, em vez de um verdadeiro reforço mútuo. Para romper esse paradigma, propomos o Uni-Edit, uma tarefa inteligente de edição de imagens que serve como a primeira tarefa geral para o ajuste de UMMs. Diferentemente de pipelines mistos complexos, o Uni-Edit melhora o desempenho em todas as três capacidades simultaneamente, utilizando apenas uma tarefa, um estágio de treinamento e um conjunto de dados. Especificamente, identificamos inicialmente a edição de imagens como uma tarefa geral inerentemente ideal, pois exige naturalmente tanto a compreensão visual quanto a geração. No entanto, os dados de edição existentes dependem de instruções simplistas que subutilizam severamente a capacidade de compreensão do modelo. Para resolver isso, introduzimos o primeiro pipeline automatizado e escalável de síntese de dados para edição inteligente, transformando dados diversos de VQA em instruções de edição complexas e eficazes, com perguntas embutidas e lógica aninhada. Isso resulta no Uni-Edit-148k, que combina instruções diversas e intensivas em raciocínio com imagens editadas de alta qualidade. Experimentos extensivos no BAGEL e no Janus-Pro demonstram que o ajuste exclusivo com o Uni-Edit alcança melhorias abrangentes em todas as três capacidades, sem qualquer operação auxiliar.
A avaliação de modelos de linguagem de grande porte (LLMs) em raciocínio lógico em linguagem natural é essencial porque tarefas baseadas em regras exigem que as conclusões sigam estritamente as premissas declaradas. Muitos referenciais existentes de raciocínio lógico são gerados por meio de modelos que criam itens em linguagem natural a partir de fórmulas amostradas, fornecem apenas anotações formais grosseiras ou não auditadas, e atualmente são rapidamente saturados por modelos de raciocínio de fronteira. Apresentamos o LLMEval-Logic, um referencial de raciocínio lógico em chinês construído a partir de cenários situacionais realistas. Seu pipeline envolve a elaboração inicial por autores e auditoria por especialistas de itens em linguagem natural juntamente com suas formalizações de referência, verifica as respostas anotadas com o Z3, constrói rubricas especializadas para avaliação da formalização de natural para formal, e endurece itens selecionados por meio de um fluxo de trabalho adversarial em malha fechada. O referencial é disponibilizado em dois subconjuntos emparelhados: um subconjunto Base de 246 itens, acompanhado de 1.400 átomos de rubrica desenvolvidos por especialistas, e um subconjunto Hard de 190 itens, com 938 subquestões de múltiplas etapas em espaços de modelo fechados. A avaliação de 14 LLMs de fronteira no LLMEval-Logic revela lacunas substanciais nos modelos atuais: o melhor modelo atinge apenas 37,5% de Precisão em Itens Hard, e mesmo com símbolos de referência, a maior pontuação conjunta de formalização Z3+Rubrica entre os modelos avaliados chega a apenas 60,16%. Nosso referencial está disponível publicamente em https://github.com/llmeval/LLMEval-Logic.
O paradigma atual de pré-treinamento para modelos de linguagem de grande porte depende de imenso poder computacional e de texto bruto em escala da internet, criando uma barreira significativa para a pesquisa fundamental. Em contraste, sistemas biológicos demonstram aprendizagem altamente eficiente em termos de amostras por meio do processamento em múltiplas escalas temporais, como a organização funcional da alça frontoparietal. Inspirados por isso, apresentamos o HRM-Text, que substitui Transformers padrão por um Modelo Recorrente Hierárquico (HRM) que desacopla o processamento em camadas estratégicas de evolução lenta e camadas de execução de evolução rápida. Para estabilizar essa recorrência profunda na modelagem de linguagem, introduzimos o MagicNorm e a atribuição profunda de crédito com aquecimento. Além disso, em vez do pré-treinamento padrão com texto bruto, treinamos exclusivamente em pares instrução-resposta usando um objetivo de conclusão de tarefa e o mascaramento PrefixLM. Servindo como uma prova empírica de existência de pré-treinamento eficiente, um modelo HRM-Text com 1 bilhão de parâmetros, treinado do zero em apenas 40 bilhões de tokens únicos e com um orçamento de US$ 1.500, alcança 60,7% no MMLU, 81,9% no ARC-C, 82,2% no DROP, 84,5% no GSM8K e 56,2% no MATH. Apesar de utilizar aproximadamente 100 a 900 vezes menos tokens de treinamento e 96 a 432 vezes menos poder computacional estimado do que as referências padrão, o HRM-Text apresenta desempenho competitivo com modelos abertos de 2 a 7 bilhões de parâmetros. Esses resultados demonstram que o co-design de arquiteturas e objetivos pode reduzir radicalmente a relação entre poder computacional e desempenho, tornando o pré-treinamento do zero acessível à comunidade de pesquisa em geral.
Os fluxos de trabalho de operações de ativos industriais são sensíveis à latência, pois uma única consulta de usuário pode exigir coordenação de dados de sensores, ordens de serviço, modos de falha, ferramentas de previsão e agentes específicos de domínio. Avaliamos esse problema no AssetOpsBench (AOB), um benchmark de agente industrial cujo pipeline de planejamento e execução expõe sobrecarga repetida proveniente da descoberta de ferramentas, planejamento do LLM, execução de ferramentas MCP e sumarização final. As técnicas existentes de cache para LLM, como reutilização de cache KV e cache semântico baseado em embeddings, foram projetadas para servir chatbots e falham quando a validade da saída depende de parâmetros de tempo, ativo ou sensor. Propomos duas camadas de otimização complementares para pipelines de planejamento e execução do AOB: um cache semântico temporal e um conjunto de otimizações de fluxo de trabalho MCP que combinam cache de descoberta de ferramentas em disco e execução paralela de etapas com conhecimento de dependências. As otimizações de fluxo de trabalho MCP corresponderam a um ganho de velocidade de 1,67x e reduziram a latência mediana de ponta a ponta em cerca de 40,0%, enquanto o benchmark de cache temporal alcançou uma mediana de 30,6x de ganho de velocidade em acessos ao cache. Além do ganho de velocidade, nossos resultados expõem um modo de falha concreto do cache semântico puro para consultas industriais ricas em parâmetros, fornecendo uma análise crítica de como as escolhas de cache interagem com a correção da avaliação em benchmarks de agentes baseados em MCP.
Com o avanço das capacidades da IA, revisores baseados em inteligência artificial estão começando a ser implantados na revisão por pares científica, mas sua capacidade e credibilidade ainda são questionadas: muitos cientistas simplesmente os veem como sistemas probabilísticos sem expertise para avaliar pesquisas, enquanto outros pesquisadores são mais otimistas quanto à sua prontidão, sem evidências concretas. Compreender no que os revisores de IA se saem bem, onde falham e quais desafios permanecem é essencial. No entanto, as avaliações existentes de revisores de IA concentraram-se em se seus vereditos correspondem aos vereditos humanos (por exemplo, alinhamento de pontuação, previsão de aceitação), o que é insuficiente para caracterizar suas capacidades e limitações. Neste artigo, preenchemos essa lacuna por meio de um estudo de anotação especializada em larga escala, no qual 45 cientistas das áreas de Ciências Físicas, Biológicas e da Saúde gastaram 469 horas avaliando 2.960 críticas individuais (cada uma visando um aspecto específico de um artigo) de revisões escritas por humanos e geradas por IA de 82 artigos da família Nature quanto à correção, significância e suficiência de evidências. Em uma composição de todas as três dimensões, um agente revisor baseado em GPT-5.2 supera o revisor humano mais bem avaliado de cada artigo (60,0% vs. 48,2%, p = 0,009), enquanto todos os três revisores de IA (incluindo Gemini 3.0 Pro e Claude Opus 4.5) excedem o revisor humano com classificação mais baixa em todas as dimensões. As críticas precisas dos revisores de IA também são mais frequentemente classificadas como significativas e bem fundamentadas, e revelam 26% de problemas distintos que nenhum humano levanta. No entanto, os revisores de IA se sobrepõem muito mais do que os humanos (21% vs. 3% para pares de revisores), e exibem 16 fragilidades recorrentes que os humanos não compartilham, como conhecimento limitado de subáreas, falta de gerenciamento de contexto longo em múltiplos arquivos e postura excessivamente crítica em questões menores. No geral, nossos resultados posicionam os revisores de IA atuais como complementos, e não substitutos, dos revisores humanos.
Modelos recentes de layout para imagem alcançaram progressos notáveis em controlabilidade espacial. No entanto, ainda enfrentam dificuldades com a oclusão entre objetos. Quando as caixas delimitadoras se sobrepõem, a maioria dos métodos existentes carece de informações explícitas de oclusão, o que torna a geração nas regiões de interseção inerentemente ambígua e dificulta a determinação de relações complexas de oclusão. Como resultado, eles frequentemente produzem texturas emaranhadas ou camadas fisicamente inconsistentes nas áreas sobrepostas. Para resolver esse problema, primeiro construímos o SA-Z, um conjunto de dados em larga escala enriquecido com ordenação explícita de oclusão e anotações em nível de pixel. Com base no conjunto de dados proposto, introduzimos o OcclusionFormer, uma nova estrutura de Transformador de Difusão ciente de oclusão que modela explicitamente a prioridade de ordem Z ao desacoplar instâncias e compô-las via renderização de volume. Além disso, para garantir precisão espacial refinada, introduzimos uma perda de alinhamento consultada que supervisiona explicitamente instâncias individuais e melhora a consistência semântica. O método proposto reduz efetivamente a ambiguidade em regiões sobrepostas, impõe dependências corretas de oclusão e preserva a integridade estrutural, resultando em ganhos substanciais de precisão em diversas cenas.
O Stable Audio 3 é uma família de modelos rápidos de difusão latente (pequeno, médio, grande) para geração e edição de áudio de duração variável. Como nossos modelos podem gerar vários minutos de áudio, gerações de comprimento variável são essenciais para evitar o custo de produzir gerações completas para sons curtos. Também oferecemos suporte a inpainting, possibilitando a edição direcionada de áudio e a continuação de gravações curtas. Nossos modelos de difusão latente operam sobre um novo autoencoder semântico-acústico que projeta o áudio em um espaço latente compacto, permitindo geração eficiente baseada em difusão, preservando a fidelidade do áudio e estimulando uma estrutura semântica no espaço latente. Por fim, realizamos pós-treinamento adversarial para acelerar a inferência e melhorar a qualidade da geração, reduzindo o número de etapas de inferência ao mesmo tempo que melhora a fidelidade e a aderência ao prompt. Os modelos Stable Audio 3 são treinados com dados licenciados e Creative Commons para gerar música e sons em menos de 2 segundos em uma GPU H200 e em menos de alguns segundos em um MacBook Pro M4. Disponibilizamos os pesos dos modelos pequeno e médio, que podem ser executados em hardware de consumo, juntamente com seus pipelines de treinamento e inferência.
Para uso prático, modelos generativos baseados em difusão ou fluxo devem ser alinhados com recompensas específicas da tarefa, como fidelidade ao prompt ou preferência estética. Esse alinhamento é desafiador porque a recompensa é definida para imagens de saída limpas, mas o procedimento de alinhamento requer estimativas da função de valor em latentes intermediários ruidosos. Métodos existentes recorrem a aproximações do tipo Tweedie ou de Monte Carlo, equilibrando viés do estimador versus custo computacional: as estimativas de Tweedie são eficientes, mas enviesadas, enquanto as de Monte Carlo são mais precisas, porém exigem *rollouts* dispendiosos. Uma alternativa natural seria uma função de valor aprendida, mas ainda é uma questão em aberto como treinar efetivamente um modelo de valor robusto e geral especificamente para latentes ruidosos. Aqui, propomos o StitchVM, uma estrutura de costura de modelos que transfere eficientemente modelos de recompensa pré-treinados para imagens limpas ao regime de latentes ruidosos. O StitchVM parte de um modelo de recompensa truncado existente no espaço de pixels e anexa um *backbone* de difusão congelado como sua cabeça. Do modelo no espaço de pixels, o híbrido resultante retém uma capacidade de recompensa robusta e cuidadosamente pré-treinada; do *backbone* de difusão, herda sua habilidade nativa de lidar com latentes ruidosos. O procedimento de costura é excepcionalmente leve; por exemplo, costurar e ajustar o CLIP ViT-L e o SD 3.5 *Medium* leva apenas 10 horas de GPU. Ao elevar modelos de recompensa poderosos do espaço de pixels para o espaço latente, o StitchVM abre um novo estilo de alinhamento por difusão: em vez de uma aproximação grosseira, porém custosa por amostra da função de valor, a função correta para os latentes ruidosos reais é construída uma vez e depois amortizada ao longo de muitas amostras e iterações. Mostramos que essa abordagem produz melhorias em uma ampla gama de métodos de orientação e pós-treinamento *downstream*: o DPS se torna 3,2 vezes mais rápido, reduzindo pela metade o pico de memória da GPU, e o DiffusionNFT se torna 2,3 vezes mais rápido.
A cache chave-valor (KV) domina a largura de banda e o footprint de memória na inferência autoregressiva de contexto longo. Codecs recentes pré-condicionados por rotação (TurboQuant, PolarQuant) mostram que uma rotação aleatória estruturada seguida por um quantizador escalar por coordenada compatível com uma marginal analiticamente tratável é uma receita quase ótima para compressão KV. O OCTOPUS avança esse paradigma por meio da quantização conjunta de tripletos de coordenadas rotacionadas. A direção de cada tripleto é mapeada para um quadrado via uma parametrização octaédrica, e as duas coordenadas resultantes e a norma do tripleto são quantizadas por Lloyd-Max contra marginais compatíveis com a implementação. A otimização do erro quadrático por tripleto fornece uma alocação de bits estritamente não uniforme que depende apenas da dimensionalidade total das chaves. Descobrimos que o ótimo de qualidade em dimensão finita com varreduras é constante em todos os decodificadores reais que testamos. O codec é independente dos dados, online e determinístico dada uma semente. Em texto, vídeo e áudio, o OCTOPUS iguala ou supera todos os codecs de rotação anteriores em todas as larguras de bits e métricas relatadas, com uma liderança que cresce à medida que os bits diminuem para compressão extrema. Além disso, uma implementação Triton fundida reconstrói chaves em tempo real sem materializar a chave descomprimida, de modo que o codec não adiciona largura de banda ou latência no momento da decodificação além da dequantização existente. Página do projeto: https://octopus-quant.github.io/
O aprendizado por reforço a partir de recompensas verificáveis (RLVR) sofre com sinais de resultado esparsos, criando sérios gargalos de exploração em tarefas complexas de raciocínio. Métodos recentes de autodestilação on-policy tentam resolver esse problema utilizando feedback linguístico para gerar supervisão densa em nível de token. No entanto, essas abordagens dependem de um professor fixo e passivo para interpretar o feedback. À medida que a política do aluno melhora, as capacidades de avaliação zero-shot do professor se estabilizam, interrompendo o aprendizado subsequente. Para superar essa limitação, propomos a Destilação Variacional de Políticas (VPD), uma estrutura que formaliza o aprendizado a partir de feedback linguístico como um problema de Expectation-Maximization (EM) Variacional. A VPD coevolui ambas as políticas: na etapa E, o professor é ativamente refinado com base nos resultados das trajetórias por meio de uma atualização adaptativa de região de confiança, traduzindo o feedback textual em uma distribuição alvo de tokens dinamicamente melhorada. Na etapa M, o aluno internaliza essa orientação distribucional densa em seus próprios rollouts on-policy. Ao melhorar continuamente a capacidade do professor de extrair sinais acionáveis a partir de críticas textuais, a VPD supera as limitações da destilação passiva. Avaliada em diversas fontes de feedback diagnóstico em tarefas de raciocínio científico e geração de código, a VPD consistentemente supera tanto o RLVR padrão quanto as linhas de base existentes de autodestilação. Finalmente, ao submeter nossa estrutura a testes de estresse em raciocínio matemático rígido e regimes de inicialização a frio, elucidamos os limites fundamentais da autodestilação orientada por feedback em comparação com o RL puramente orientado pelo ambiente.
Agentes LLM organizam o comportamento por meio de habilidades — especificações estruturadas em linguagem natural que governam como um agente raciocina, recupera informações e responde. Diferentemente de prompts monolíticos, as habilidades são artefatos de múltiplos campos sujeitos a restrições rígidas da plataforma: campos de descrição são truncados para roteamento, corpos de instrução são compactados por meio de revelação progressiva, e habilidades co-residentes competem por janelas de contexto limitadas. Essas restrições tornam a otimização de habilidades inerentemente multiobjetivo: uma habilidade deve simultaneamente maximizar o desempenho da tarefa e satisfazer os limites da plataforma. No entanto, os otimizadores de prompt existentes ignoram essas compensações ou as reduzem a uma soma ponderada, perdendo variantes ótimas de Pareto em regiões objetivas não convexas. Apresentamos o MOCHA (Multi-Objective Chebyshev Annealing – Recozimento Chebyshev Multiobjetivo), que substitui a seleção mono-objetivo pela escalarização de Chebyshev — cobrindo toda a fronteira de Pareto, incluindo regiões não convexas — combinada com recozimento exponencial que faz a transição da exploração para o aproveitamento. Em nossos experimentos com seis habilidades diversas de agentes — onde todos os métodos compartilham o mesmo operador de mutação multiobjetivo e as linhas de base recebem feedback textual idêntico por objetivo — os otimizadores existentes falham em melhorar a habilidade inicial em 4 de 6 tarefas: 1000 execuções produzem zero progresso. O MOCHA avança em todas as tarefas, alcançando uma melhoria relativa de 7,5% na correção média em relação à linha de base mais forte (até 14,9% no FEVER e 10,4% no TheoremQA), além de descobrir o dobro de variantes ótimas de Pareto de habilidades.
Gerar um tour VR completo e consistente de uma residência a partir de uma planta baixa e de uma referência de estilo exige tanto panoramas fotorrealistas quanto coerência espacial entre vistas. Geradores puramente 2D produzem panoramas individuais atraentes, mas reimaginam geometria e materiais quando o ponto de vista muda, enquanto a geração monolítica 3D torna-se custosa e perde texturas finas em escala de múltiplos cômodos. Apresentamos o PanoWorld, um modelo generativo de mundo espacial que trata a síntese de uma casa inteira como geração autorregressiva de panoramas de 360 graus baseados em nós, correspondendo à navegação discreta usada por produtos reais de tour VR. O PanoWorld utiliza uma casca 3D derivada da planta baixa como proxy geométrico global e um cache dinâmico de Gaussian Splatting 3D como memória espacial renderizável. Um LRM panorâmico feed-forward projetado para entradas de 360 graus em escala métrica para múltiplos cômodos eleva os panoramas gerados a atualizações locais de 3DGS, enquanto a Atenção de Grupo Consciente de Cômodos suprime a interferência de características entre cômodos. Uma estratégia de cache progressivo ciente da topologia funde essas atualizações locais sem reconstruir repetidamente o histórico completo. Ao desacoplar a orientação geométrica baseada em casca da memória visual renderizada por cache, o PanoWorld preserva a qualidade de síntese 2D de alta frequência enquanto melhora a consistência de layout e material entre nós. O link do projeto é https://jjrcn.github.io/PanoWorld-project-home/.
Aprendizado por Reforço com Recompensa Verificável (RLVR) tem se mostrado eficaz na melhoria da capacidade de raciocínio de Modelos de Linguagem de Grande Porte (LLM). No entanto, a dinâmica de aprendizado do RLVR ainda é pouco explorada. Neste artigo, revelamos um fenômeno contraintuitivo: entre exemplos difíceis com os quais o modelo inicialmente luta, um subconjunto substancial permanece não aprendível mesmo quando rolagens corretas estão presentes. Para compreender o fenômeno, primeiro demonstramos que técnicas existentes de otimização e amostragem não conseguem resolver a não aprendibilidade. Com análise de gradiente entre exemplos, mostramos que exemplos não aprendíveis apresentam um problema fundamental de representação, caracterizado por baixa similaridade de gradiente com o restante dos exemplos e padrões de raciocínio não generalizáveis. Mostramos ainda que as falhas de representação são difíceis de mitigar no RL, pois o aumento de dados não melhora a similaridade de gradiente. Nosso estudo fornece a primeira caracterização sistemática de dados não aprendíveis no treinamento com RLVR e revela limitações fundamentais nas abordagens atuais de RL para tarefas de raciocínio. Código e dados estão disponíveis em https://github.com/yulinchen99/unlearnability-rlvr.
À medida que agentes de codificação de longo horizonte produzem mais código do que qualquer desenvolvedor consegue revisar, a supervisão se concentra em uma única superfície: a suíte de testes automatizados. A manipulação de recompensa (reward hacking) surge naturalmente nesse cenário, pois o agente otimiza para passar nos testes, desviando-se do objetivo real do usuário. Estudamos esse fenômeno de manipulação de recompensa decompondo tarefas de engenharia de software em três partes: (i) uma descrição em linguagem natural da especificação; (ii) testes de validação visíveis que exercitam funcionalidades especificadas de forma isolada; e (iii) testes retidos (held-out) que compõem essas mesmas funcionalidades para simular o uso no mundo real. Com base na especificação e nas suítes de testes de validação visíveis, um agente genuíno seria capaz de gerar uma solução que também passasse em todos os testes retidos. Portanto, usamos a diferença nas taxas de aprovação entre essas duas suítes para quantificar a manipulação de recompensa. Com base nessa metodologia, apresentamos o SpecBench, um benchmark composto por 30 tarefas de programação em nível de sistema, que variam de tarefas de horizonte curto, como construir um analisador JSON, até tarefas de horizonte ultra longo, como construir um núcleo de sistema operacional do zero. Experimentos em larga escala revelam um padrão consistente: embora todos os agentes de fronteira saturem a suíte visível, a manipulação de recompensa persiste, com modelos menores apresentando lacunas maiores nas suítes retidas. A lacuna também aumenta acentuadamente com a duração da tarefa: cresce 28 pontos percentuais a cada aumento de dez vezes no tamanho do código. As falhas variam desde isolamento sutil de funcionalidades até explorações deliberadas, incluindo um "compilador" de tabela hash com 2.900 linhas que memoriza entradas de teste. O SpecBench oferece um ambiente de teste fundamentado para medir se agentes de codificação constroem sistemas genuinamente funcionais ou apenas enganam as suítes de testes que os desenvolvedores lhes fornecem.
Agentes do mundo real operam em horizontes longos e evolutivos, onde as informações são atualizadas repetidamente e podem interferir entre memórias, exigindo recuperação precisa e raciocínio agregado sobre múltiplas informações. No entanto, os benchmarks existentes focam em recuperação estática e independente, não capturando essas interações dinâmicas entre memórias em evolução. Neste artigo, estudamos como agentes atuais com memória aumentada se comportam em cenários realistas, com alta interferência e horizontes longos, em diversos domínios e tipos de pergunta. Apresentamos o MINTEval (Avaliação de Memória de Longo Horizonte sob Interferência), um benchmark que oferece: (1) contextos longos e altamente interconectados, com informações frequentemente atualizadas que induzem interferência substancial; (2) domínios diversos (rastreamento de estados, diálogo multi-turno, revisões da Wikipédia e commits do GitHub), permitindo avaliação de generalização entre domínios; e (3) tipos variados de pergunta que avaliam robustez à interferência, incluindo (i) tarefas de recordação de alvo único, que exigem a recuperação de um alvo específico em contextos longos, e (ii) tarefas de agregação de múltiplos alvos, que exigem raciocínio sobre múltiplas informações relevantes. No total, o MINTEval possui 15.6 mil pares de pergunta-resposta em contextos de longo horizonte, com média de 138.8 mil tokens e extensão de até 1.8 milhão de tokens por instância. Avaliamos 7 sistemas representativos, incluindo LLMs de contexto longo tradicionais, RAG e frameworks de agentes com memória aumentada. Em todos os sistemas, observamos desempenho consistentemente baixo (média de 27.9% de acurácia), especialmente em perguntas que exigem raciocínio agregado sobre múltiplas evidências. Nossa análise mostra que o desempenho é limitado principalmente pela recuperação e construção da memória. Além disso, os sistemas de memória atuais têm dificuldade em recordar e raciocinar sobre fatos anteriores que são revisados ou interferidos por contexto subsequente, com a acurácia degradando à medida que o número de atualizações intervenientes aumenta.
A Otimização Direta de Preferências (DPO) emergiu como uma alternativa popular ao Aprendizado por Reforço a partir de Feedback Humano (RLHF), oferecendo equivalência teórica com implementação mais simples. Provamos que essa equivalência é condicional, e não universal, dependendo de uma suposição implícita frequentemente violada na prática: a política ótima do RLHF deve preferir respostas preferidas por humanos. Quando essa suposição falha, a DPO otimiza a vantagem relativa em relação à política de referência, e não o alinhamento absoluto com as preferências humanas, levando a uma convergência patológica onde as políticas reduzem a perda da DPO enquanto preferem respostas não preferidas. Caracterizamos quando essa suposição é violada, mostramos a existência de um espaço de soluções indesejável e provamos que a DPO e o RLHF otimizam objetivos fundamentalmente diferentes nesses casos. Para resolver isso, introduzimos a Otimização de Preferências Restrita (CPO), que aumenta o RLHF com restrições para alinhamento comprovável. Além disso, fornecemos uma interpretação geométrica por meio de ranqueamento de margem suave, revelando que a DPO implementa ranqueamento de margem com alvos potencialmente negativos. Nossa análise teórica estabelece quando as garantias da DPO são válidas e fornece soluções que preservam a simplicidade com alinhamento comprovável. Experimentos abrangentes em benchmarks padrão demonstram que a CPO atinge desempenho de estado da arte. O código está disponível em: https://github.com/visitworld123/CPO.
Apresentamos o Mem-π, uma estrutura para memória adaptativa em agentes de modelos de linguagem de grande porte (LLMs), onde orientações úteis são geradas sob demanda, em vez de recuperadas de armazenamentos de memória externos. Agentes existentes com memória aumentada geralmente dependem de recuperação baseada em similaridade de bancos de memória episódica ou bibliotecas de habilidades, retornando entradas estáticas que frequentemente estão desalinhadas com o contexto atual. Em contraste, o Mem-π usa um modelo de linguagem ou visão-linguagem dedicado, com seus próprios parâmetros, separado do agente downstream, para gerar orientações específicas ao contexto para tarefas complexas. Condicionado ao contexto atual do agente, o modelo decide conjuntamente quando produzir orientação e qual orientação produzir. Nós o treinamos com um objetivo de aprendizado por reforço (RL) desacoplado entre decisão e conteúdo, permitindo que ele se abstenha quando a geração não for útil e, caso contrário, produza orientações concisas e úteis. Em diversos benchmarks agentivos que abrangem navegação na web, uso de ferramentas baseado em terminal e interação incorporada baseada em texto, o Mem-π supera consistentemente as linhas de base de memória baseadas em recuperação e otimizadas por RL anteriores, alcançando mais de 30% de melhoria relativa em tarefas de navegação na web.
Modelos feed-forward recentes avançaram significativamente a percepção geométrica para inferir estruturas 3D densas a partir de observações de sensores. No entanto, suas capacidades essenciais permanecem fragmentadas em diversos paradigmas incompatíveis, incluindo percepção online, reconstrução offline, integração multimodal, escalabilidade de longo horizonte e estimativa de escala métrica. Apresentamos o UniT, um modelo unificado construído sobre um novo Transformador Autoregressivo de Grupo, que reformula essas capacidades aparentemente díspares dentro de um único arcabouço. A ideia chave é tratar grupos de observações de sensores como as unidades autoregressivas básicas e predizer os mapas de pontos correspondentes de maneira sem âncoras e adaptativa à escala. Mais especificamente, diversas configurações de vista, tanto em cenários online quanto offline, são naturalmente unificadas em um único processo de autoregressão em grupo. Ao variar o tamanho do grupo, o modo online opera sobre múltiplos passos autoregressivos com grupos de quadro único, enquanto o modo offline agrega um grupo de múltiplos quadros em uma única passagem direta. Enquanto isso, um mecanismo de cache KV em estilo de fila garante memória autoregressiva limitada ao longo de horizontes longos. Isso é possibilitado pela redução de dependências de longo alcance em quadros iniciais através da modelagem relacional sem âncoras, permitindo que a memória desatualizada seja descartada dinamicamente. Para melhorar a generalização de escala métrica entre cenas, uma perda geométrica adaptativa à escala é ainda introduzida dentro deste arcabouço. Ela acopla restrições geométricas relativas com um termo de escala absoluta parcial, regularizando implicitamente a escala global e induzindo uma transição progressiva da geometria invariante à escala para soluções de escala métrica. Juntamente com um módulo de atenção modal dedicado para integrar modalidades auxiliares, o UniT alcança desempenho de estado da arte em percepção geométrica unificada, conforme validado em dez referenciais abrangendo sete tarefas representativas.
À medida que agentes autônomos de codificação se tornam capazes de lidar com tarefas de horizonte cada vez mais longo, eles gradualmente demonstraram potencial para completar o desenvolvimento de software ponta a ponta. Embora os benchmarks existentes tenham evoluído recentemente da edição localizada de código para a geração de projetos do zero, eles ainda se restringem a aplicações estruturalmente simplificadas e de pilha única. Consequentemente, não capturam os ambientes heterogêneos, a orquestração full-stack e a complexidade em nível de sistema dos sistemas reais de Software como Serviço (SaaS) empresariais, deixando uma lacuna crítica na avaliação de agentes sob restrições realistas de engenharia. Para preencher essa lacuna, apresentamos o SaaSBench, o primeiro benchmark projetado para explorar os limites dos agentes de IA na engenharia de SaaS empresarial. Abrangendo 30 tarefas complexas em 6 domínios de SaaS, com 5.370 nós de validação, ele incorpora 8 linguagens de programação, 6 bancos de dados e 13 frameworks para espelhar meticulosamente a heterogeneidade real do software. Além disso, projetamos um paradigma de avaliação híbrido ciente de dependências, adaptado para sistemas complexos com horizontes longos e acoplamento multicomponente, permitindo uma avaliação granular e reproduzível. Crucialmente, nossos extensos experimentos revelam uma percepção marcante: o principal gargalo para agentes de última geração não é gerar lógica de código isolada, mas configurar e integrar com sucesso um sistema multicomponente. Mais de 95% das falhas nas tarefas ocorrem antes mesmo de os agentes atingirem a lógica de negócios profunda, com modelos frequentemente sendo vítimas de excesso de confiança e parando prematuramente durante a configuração fundamental do sistema, ou ficando presos em loops ineficazes de depuração. Esperamos que o SaaSBench sirva como um ambiente de teste prático e desafiador para impulsionar a evolução de agentes de codificação confiáveis em nível de sistema. O código está disponível em https://github.com/ShadeCloak/SaaSbench.
O planejamento é uma capacidade fundamental para grandes modelos de linguagem (LLMs), pois tarefas complexas exigem que os modelos coordenem objetivos, restrições, recursos e consequências de longo prazo em soluções executáveis e verificáveis. No entanto, os benchmarks existentes de planejamento geralmente tratam os dados de planejamento como coleções fixas de instâncias, em vez de alvos de geração controláveis. Isso limita a cobertura de cenários, vincula a dificuldade a proxies superficiais em vez de fontes estruturais e oferece suporte limitado para geração escalável, verificação automática ou treinamento orientado ao planejamento. Apresentamos o PlanningBench, um framework para gerar dados de planejamento escaláveis, diversos e verificáveis, tanto para avaliação quanto para treinamento. O PlanningBench parte de cenários reais de planejamento e abstrai workflows práticos em uma taxonomia estruturada com mais de 30 tipos de tarefas, subtarefas, famílias de restrições e fatores de dificuldade. Guiado por essa taxonomia, um pipeline de síntese orientado por restrições instancia problemas de planejamento autocontidos com controle adaptativo de dificuldade, filtragem de qualidade e listas de verificação em nível de instância. Isso desloca a construção de dados de planejamento de uma coleta fixa de benchmarks para uma geração controlável, preservando ao mesmo tempo o embasamento realista das tarefas. Usamos o PlanningBench para avaliar LLMs de ponta de código aberto e fechado, e descobrimos que os modelos atuais ainda têm dificuldade em produzir soluções completas sob restrições acopladas. Além da avaliação, o aprendizado por reforço com dados verificados do PlanningBench melhora o desempenho em benchmarks de planejamento não vistos e em tarefas mais amplas de seguimento de instruções. Análises adicionais sugerem que soluções ótimas determinadas ou bem especificadas fornecem sinais de recompensa mais claros e dinâmicas de treinamento mais estáveis. No geral, o PlanningBench fornece uma fonte controlável de dados de planejamento para diagnosticar e aprimorar habilidades de planejamento generalizáveis em LLMs.
O pós-treinamento de segurança pode melhorar a nocividade e a conformidade com políticas dos Modelos de Linguagem de Grande Escala (LLMs), mas também pode reduzir a utilidade geral, um fenômeno frequentemente descrito como o imposto de alinhamento. Estudamos essa troca através da lente do aprendizado contínuo: estágios sequenciais de alinhamento expõem o modelo a distribuições de dados e objetivos deslocados, e seus gradientes podem interferir com direções que suportam capacidades gerais previamente adquiridas. Essa visão não afirma que toda degradação de alinhamento tem uma única causa; em vez disso, fornece um mecanismo de primeira ordem útil para mitigar uma fonte importante de regressão de capacidade. Propusemos a Projeção Ortogonal de Gradientes para Alinhamento de Segurança (OGPSA), uma regra de atualização leve que estima um subespaço de referência de baixo posto a partir de gradientes em um pequeno conjunto de dados de capacidade geral e remove de cada gradiente de segurança o componente situado nesse subespaço. A atualização resultante é a direção de descida de segurança local mais íngreme, sujeita a restrições de preservação de primeira ordem nos objetivos de referência. OGPSA é compatível com pipelines padrão de pós-treinamento e evita replay em larga escala, embora introduza o cálculo periódico de gradientes de referência. Em configurações de Ajuste Fino Supervisionado (SFT), Otimização Direta de Preferências (DPO) e SFT→DPO sequencial, OGPSA melhora a troca observada entre segurança e utilidade em relação às linhas de base padrão. Sob o pipeline sequencial SFT→DPO, o ganho médio de desempenho aumenta de 33,98% para 42,74% no Qwen2.5-7B-Instruct e de 19,74% para 32,98% no Llama3.1-8B-Instruct. Disponibilizamos nosso código como código aberto em https://github.com/SunGL001/OGPSA.
O treinamento de modelos de linguagem modernos está cada vez mais exposto a instabilidade, execuções degradadas e desperdício de computação, especialmente sob condições agressivas de taxa de aprendizado, escala e estresse de tempo de execução. Este artigo introduz o Learn-by-Wire Guard (LBW-Guard), uma camada de governança de controle de treinamento autônomo e limitada que opera acima do AdamW. Em vez de substituir a regra de atualização do otimizador, o LBW-Guard observa a telemetria do treinamento, interpreta regimes sensíveis a instabilidade e aplica controle limitado à execução do otimizador, preservando objetivos de treinamento fixos. Avaliamos o LBW-Guard em um conjunto de testes de estresse e robustez centrado no Qwen2.5 usando WikiText-103, com Qwen2.5-7B como referência empírica, comparações de tamanho de modelo com Qwen2.5-3B e Qwen2.5-14B, testes de estresse de taxa de aprendizado, linhas de base de recorte de gradiente e uma verificação de sanidade de parâmetros completos com TinyLlama-1B sem LoRA. No cenário de referência de 7B, o LBW-Guard reduz a perplexidade final de 13,21 para 10,74, uma melhoria de 18,7%, enquanto reduz o tempo de ponta a ponta de 392,54s para 357,02s, uma aceleração de 1,10x. Sob estresse mais forte de taxa de aprendizado, o AdamW degrada para perplexidade final de 1885,24 com LR=3e-3 e 659,76 com LR=1e-3, enquanto o LBW-Guard permanece treinável com 11,57 e 10,33, respectivamente. As linhas de base de recorte de gradiente não reproduzem esse efeito. Esses resultados sustentam uma conclusão de sistemas em escopo de que o treinamento de LLMs sensível à estabilidade pode se beneficiar de um plano de governança acima do otimizador. O LBW-Guard fornece evidências de que o controle limitado em tempo de execução pode preservar a computação produtiva sob estresse, mantendo-se distinto da substituição do otimizador e da supressão local de gradiente.
Modelos de Linguagem de Grande Escala de Difusão (dLLMs) surgiram como uma alternativa competitiva aos modelos autorregressivos (AR), oferecendo melhor utilização de hardware e contexto bidirecional por meio de decodificação paralela em nível de bloco. No entanto, à medida que os dLLMs continuam a escalar com arquiteturas de mistura de especialistas (MoE), sua implantação em dispositivos com recursos limitados permanece um desafio em aberto. Métodos existentes baseados em AR frequentemente incorrem em sobrecarga de E/S proibitiva ou gargalos computacionais significativos. Neste trabalho, propomos o TIDE, um novo sistema de inferência eficiente em recursos que aproveita a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco. Especificamente, aproveitamos a estabilidade temporal das ativações de especialistas durante o processo de difusão dentro do bloco e introduzimos uma estratégia de atualização de especialistas baseada em intervalos que atualiza o posicionamento dos especialistas de forma consciente da E/S. Para garantir desempenho ideal, formulamos o agendamento de inferência como um problema de programação matemática, resolvendo para o intervalo ótimo que minimiza o tráfego de E/S e a computação da CPU. Mais importante ainda, o TIDE é uma otimização sem perdas que não requer treinamento do modelo, proporcionando uma aceleração "almoço grátis" para a inferência de dLLMs. Em um sistema com uma única GPU-CPU, demonstramos que o TIDE alcança melhorias de vazão de até 1,4x e 1,5x em relação às linhas de base anteriores nos modelos LLaDA2.0-mini e LLaDA2.0-flash, respectivamente.
Vídeo Virtual Try-On (VVT) visa substituir perfeitamente uma peça de vestuário em uma pessoa em um vídeo por uma nova. Embora os métodos existentes tenham feito avanços significativos na manutenção da consistência temporal, eles estão predominantemente confinados a cenários não interativos, onde os modelos apenas exibem as roupas. Essa limitação ignora um aspecto crucial da apresentação de vestuário no mundo real: a interação ativa entre humano e vestimenta. Para preencher essa lacuna, introduzimos e formalizamos uma nova tarefa desafiadora: o Vídeo Virtual Try-On Interativo (VVT Interativo), onde os sujeitos no vídeo interagem ativamente com suas roupas. Essa tarefa introduz desafios únicos além da simples preservação de textura, incluindo: (1) resolver a ambiguidade semântica das interações a partir de informações de pose padrão, e (2) aprender deformações complexas da vestimenta a partir de vídeos onde os momentos interativos são esparsos e breves. Para enfrentar esses desafios, propomos o iTryOn, uma nova estrutura construída sobre um Transformer de difusão de vídeo em larga escala. O iTryOn é pioneiro em um mecanismo de injeção de interação em múltiplos níveis para orientar a geração de dinâmicas complexas. No nível espacial, introduzimos um antecedente de mão 3D agnóstico à vestimenta para fornecer orientação refinada para o contato preciso mão-vestimenta, resolvendo efetivamente a ambiguidade espacial. No nível semântico, o iTryOn utiliza legendas globais para contexto geral e legendas de ação com carimbo de tempo para interações localizadas, sincronizadas por meio de nosso novo Embedding de Posição Rotacional Sensível à Ação (A-RoPE). Experimentos extensivos demonstram que o iTryOn não apenas alcança desempenho de última geração nos benchmarks tradicionais de VVT, mas também estabelece uma liderança dominante no novo cenário interativo, marcando um passo significativo em direção a experiências de prova virtual mais dinâmicas e controláveis.
Grandes Modelos de Linguagem Visual (GMLVs) mostram potencial em aplicações médicas, mas sua incapacidade de fundamentar fielmente as respostas em evidências visuais levanta sérias preocupações sobre a confiabilidade clínica. Embora métodos de atribuição visual sejam amplamente utilizados para explicar as previsões dos GMLVs, se essas explicações realmente refletem as evidências visuais subjacentes à decisão do modelo permanece em grande parte não verificado, uma vez que anotações de referência para o raciocínio interno do modelo geralmente não estão disponíveis. Abordamos essa questão para o raciocínio em radiografias de tórax (CXR) desenvolvendo uma estrutura de avaliação causal que retém apenas amostras CXR-VQA nas quais a região anotada por especialistas é verificada, por meio de edição contrafactual, como sendo causalmente responsável pela previsão do modelo. Utilizando essa estrutura em 11 métodos de atribuição, seis GMLVs de código aberto e dois modos de saída (resposta direta e raciocínio passo a passo), descobrimos que os métodos de atribuição existentes frequentemente falham em identificar as evidências utilizadas pelos GMLVs. Para lidar com essa falha, propomos o MedFocus, um método de atribuição baseado em conceitos que localiza regiões anatômicas clinicamente significativas por meio de transporte ótimo desequilibrado e mede seu efeito causal nas saídas do modelo por meio de intervenções direcionadas. O MedFocus produz atribuições espaciais, em nível de conceito e em nível de token, e supera substancialmente os métodos anteriores, dando um passo em direção a uma atribuição mais confiável para GMLVs médicos. Nossos dados e código estão disponíveis em https://github.com/gzxiong/medfocus/.
Geração de texto para movimento, que traduz descrições textuais em movimentos humanos, enfrenta o desafio de que os usuários frequentemente têm dificuldade em transmitir precisamente seus movimentos pretendidos apenas por meio de texto. Para abordar essa questão, este artigo apresenta o DrawMotion, uma estrutura eficiente baseada em difusão projetada para cenários de múltiplas condições. O DrawMotion gera movimentos com base tanto em uma condição textual convencional quanto em uma nova condição de desenho à mão livre, que fornecem controle semântico e espacial sobre os movimentos gerados, respectivamente. Especificamente, abordamos a tarefa de geração de movimentos de granularidade fina sob três perspectivas: 1) condição de desenho à mão livre. Para capturar com precisão os movimentos pretendidos pelos usuários sem exigir entrada textual tediosa, desenvolvemos um algoritmo para gerar automaticamente esboços de bonecos palito desenhados à mão livre em diferentes formatos de conjuntos de dados; 2) fusão de múltiplas condições. Propomos um Módulo de Múltiplas Condições (MMC) que é integrado ao processo de difusão, permitindo que o modelo explore todas as combinações possíveis de condições, ao mesmo tempo que reduz a complexidade computacional em comparação com abordagens convencionais; e 3) orientação livre de treinamento. Notavelmente, o MMC no DrawMotion garante que suas características intermediárias estejam em um espaço contínuo, permitindo que gradientes de orientação por classificador atualizem essas características, alinhando assim os movimentos gerados com as intenções dos usuários, preservando a fidelidade. Experimentos quantitativos e estudos com usuários demonstram que a abordagem de desenho à mão livre reduz o tempo do usuário em aproximadamente 46,7% ao gerar movimentos alinhados com sua imaginação. O código, demonstrações e dados relevantes estão disponíveis publicamente em https://github.com/InvertedForest/DrawMotion.
O agrupamento de consultas organiza consultas em grupos que refletem demandas latentes compartilhadas de capacidade, possibilitando uma avaliação de LLM ciente das capacidades. Métodos de agrupamento existentes, que dependem principalmente de taxonomias semânticas ou embeddings, muitas vezes não conseguem capturar tais requisitos latentes de capacidade devido a um desalinhamento entre a semântica de superfície e o desempenho real do modelo. Propomos o ECC, um algoritmo que calibra embeddings semânticos prévios utilizando comparações limitadas de modelos posteriores para preencher a lacuna entre a semântica de superfície e os requisitos latentes de capacidade. O ECC caracteriza cada grupo por meio de um perfil de capacidade parametrizado por um modelo de Bradley-Terry e utiliza pesos de mistura treináveis para acomodar consultas com demandas mistas de capacidade, aprendendo conjuntamente uma estrutura de agrupamento flexível e ciente das capacidades que suporta inferência específica a consultas das capacidades do LLM. Avaliações quantitativas e qualitativas extensas demonstram que o ECC melhora significativamente a qualidade da classificação de capacidades do LLM, superando as linhas de base baseadas em rótulos humanos e embeddings por uma média de 17,64 e 18,02 pontos percentuais, respectivamente, e se mostra eficaz em tarefas subsequentes, como o roteamento de consultas.
A discordância de ensembles é amplamente utilizada como proxy para incerteza epistêmica em segmentação de imagens médicas. Na prática, muitos estudos formam ensembles por meio de validação cruzada K-fold (CV), mas os denominam como "ensembles profundos" (DE). Como os membros do CV são treinados em subconjuntos de dados diferentes, sua discordância combina variabilidade impulsionada pela semente com efeitos de exposição aos dados, o que pode alterar a forma como a incerteza deve ser interpretada. Audiamos estudos recentes sobre incerteza em segmentação e constatamos que incompatibilidades entre terminologia e implementação são comuns. Em seguida, comparamos um ensemble padrão de CV com 5 folds a um DE de 5 membros (conjunto de treinamento fixo, sementes aleatórias diferentes) sob configurações idênticas, em três conjuntos de dados de segmentação com múltiplos avaliadores, abrangendo três modalidades. Avaliamos a incerteza quanto à calibração, detecção de falhas, modelagem de ambiguidade e robustez sob mudança de distribuição. Os DEs igualam a precisão da segmentação, ao mesmo tempo que melhoram a calibração e a detecção de falhas, enquanto os ensembles de CV, nos conjuntos de dados estudados, às vezes se correlacionam mais fortemente com a variabilidade entre avaliadores. Portanto, a construção do ensemble deve ser escolhida de acordo com a pergunta de pesquisa: DEs para usos voltados à confiabilidade (por exemplo, encaminhamento seletivo/detecção de falhas) e ensembles de CV como proxy para ambiguidade. Fornecemos uma modificação leve do nnU-Net que possibilita o treinamento de DEs dentro do pipeline padrão.
Nos últimos anos, o Muon emergiu como o método dominante para treinar grandes modelos de linguagem e, de forma mais ampla, transformers. A diferença essencial, quando comparado aos métodos padrão de gradiente descendente, é substituir a matriz de atualização usual M = UΣV^⊤ pelo seu fator polar UV^⊤. Neste trabalho, consideramos uma classe de atualizações do tipo Muon, nas quais substituímos a atualização M por UΣ^p V^⊤ para algum parâmetro p. Chamamos essa operação de "modelagem espectral" e desenvolvemos uma teoria sobre como escolher p, que depende (a) da curvatura local da função de perda, (b) do ruído proveniente de gradientes estocásticos e ruído de rótulos, e (c) do estágio de treinamento. Nossa teoria e experimentação revelam um comportamento anteriormente negligenciado: p positivo ajuda no início ao enfatizar direções de alta curvatura e acelerar a contração do sinal, enquanto p ligeiramente negativo ajuda em estágios posteriores ao realocar a força de atualização para direções de baixa curvatura que ainda contêm sinais úteis de treinamento. Com base nessa percepção, propomos o DynMuon, um método eficiente de modelagem espectral dinâmica que ajusta p de positivo para ligeiramente negativo ao longo do treinamento. Experimentos abrangentes em diferentes tamanhos de modelo, arquiteturas e configurações de treinamento mostram que o DynMuon alcança consistentemente uma perda de validação menor que o Muon, ao mesmo tempo que requer 10,6–26,5% menos etapas para atingir a mesma perda alvo.
A tokenização por subpalavras é uma parte essencial dos modelos modernos de linguagem de grande escala (LLMs), mas suas contribuições específicas para a eficiência de treinamento e o desempenho dos modelos ainda são pouco compreendidas. Neste trabalho, separamos os efeitos da tokenização por subpalavras ao isolá-los em um pipeline controlado de pré-treinamento em nível de byte. Formulamos e testamos hipóteses em diversas dimensões, incluindo rendimento de amostras, escalonamento de vocabulário e o prior linguístico das fronteiras de subpalavras. Ao simular esses efeitos em um ambiente de nível de byte, refinamos nossa compreensão sobre por que os modelos baseados em subpalavras superam os modelos de bytes puros e oferecemos insights para melhorar o pré-treinamento de futuros modelos de nível de byte e de subpalavras. Especificamente, nossos experimentos destacam o papel crítico do aumento do rendimento de treinamento e da integração das fronteiras de subpalavras como priores explícitos ou viéses indutivos.