Artigos de pesquisa em IA selecionados diariamente com traduções
O crescente sucesso dos modelos Visão-Linguagem-Ação (VLA) decorre da promessa de que os modelos de Visão-Linguagem (VLM) pré-treinados podem dotar os agentes com conhecimento do mundo transferível e fundamentação visão-linguagem (VL, do inglês *Vision-Language*), estabelecendo uma base para modelos de ação com maior capacidade de generalização. No entanto, quando esses VLMs são adaptados para a modalidade de ação, permanece incerto até que ponto suas representações e conhecimento VL originais são preservados. Neste trabalho, conduzimos um estudo sistemático da retenção de representações durante o ajuste fino (*fine-tuning*) para VLA, demonstrando que um ajuste fino de ação ingênuo leva à degradação das representações visuais. Para caracterizar e medir esses efeitos, investigamos as representações internas dos modelos VLA e analisamos mapas de atenção; além disso, projetamos um conjunto de tarefas e métodos direcionados que contrastam modelos VLA com seus equivalentes VLMs, isolando as mudanças nas capacidades VL induzidas pelo ajuste fino de ação. Avaliamos ainda uma série de estratégias para alinhar representações visuais e introduzimos um método simples, porém eficaz, que mitiga a degradação e resulta em uma melhor generalização para cenários fora da distribuição (*Out-of-Distribution*, OOD). Em conjunto, nossa análise esclarece a relação de compromisso (*trade-off*) entre o ajuste fino de ação e a degradação das representações VL e destaca abordagens práticas para recuperar as capacidades VL herdadas. O código está publicamente disponível: https://blind-vla-paper.github.io
O código emergiu como um meio preciso e executável para raciocínio e ação na era dos agentes. No entanto, o progresso tem-se focado largamente em tarefas centradas na linguagem, como síntese e depuração de programas, deixando a codificação centrada no visual pouco explorada. Inspirados pela forma como os humanos raciocinam sobre esboços, defendemos o código SVG como uma representação visual compacta, interpretável e executável. Apresentamos o VCode, um benchmark que reformula a compreensão multimodal como geração de código: dada uma imagem, um modelo deve produzir SVG que preserve o significado simbólico para raciocínio subsequente. O VCode abrange três domínios - senso comum geral (MM-Vet), disciplinas profissionais (MMMU) e perceção centrada no visual (CV-Bench). Para avaliar a fidelidade simbólica, propomos o CodeVQA, um protocolo de avaliação inovador no qual um modelo de política responde a perguntas sobre SVGs renderizados; respostas corretas indicam uma preservação simbólica fiel. Empiricamente, os VLMs de vanguarda lutam para gerar SVGs fiéis, revelando uma lacuna persistente entre a codificação centrada na linguagem e a centrada no visual. Para colmatar esta lacuna, introduzimos o VCoder, uma estrutura agentiva que aumenta os VLMs ao longo de dois eixos: (i) Pensar com Revisão, que analisa iterativamente discrepâncias e refina o código SVG; e (ii) Agir com Ferramentas Visuais, onde detetores e analisadores fornecem pistas estruturadas, como objetos, formas e texto, para além da capacidade intrínseca do modelo. Nos benchmarks, os VLMs de vanguarda com fortes capacidades de raciocínio pontuam bem no geral, mas permanecem limitados em conhecimento profissional e raciocínio 3D. O VCoder proporciona um ganho geral de 12,3 pontos sobre o Claude-4-Opus, o modelo de melhor desempenho. Estudos humanos mostram que tanto humanos como VLMs têm pior desempenho em SVGs renderizados; a sua consistência revela a promessa da representação visual simbólica. O benchmark e o código estão disponíveis em https://github.com/CSU-JPG/VCode.
Propomos o MIRA, um novo benchmark projetado para avaliar modelos em cenários onde a geração de imagens visuais intermediárias é essencial para o raciocínio bem-sucedido. Diferente dos métodos tradicionais de Cadeia de Pensamento (CoT) que dependem exclusivamente de texto, as tarefas no MIRA exigem que os modelos gerem e utilizem imagens intermediárias - como esboços, diagramas estruturais ou desenhos de trajetórias - para orientar seu processo de raciocínio. Essa configuração espelha de perto como os humanos resolvem problemas complexos por meio do "desenhar para pensar". Para resolver isso, o MIRA concentra-se em tarefas intrinsecamente desafiadoras e que envolvem estruturas complexas, relações espaciais ou etapas de raciocínio difíceis de expressar apenas por linguagem. Para garantir que nossos dados de avaliação sejam de alta qualidade, incluímos 546 problemas multimodais, anotados com imagens visuais intermediárias e respostas finais. Também propomos um protocolo de avaliação unificado para o MIRA que abrange três níveis de entrada de avaliação: entrada direta (apenas com imagem e pergunta), entrada CoT apenas textual (com imagem e prompts de pensamento) e entrada CoT Visual (com pistas de imagem anotadas e prompts de pensamento textuais). Para investigar o limite superior da capacidade do modelo em nosso benchmark, também relatamos as acurácias pass@k e de votação majoritária sob diferentes configurações de k. Os resultados experimentais mostram que os modelos de linguagem grandes multimodais existentes, incluindo os modelos privados mais fortes, bem como modelos de pesos abertos robustos, têm desempenho ruim ao depender apenas de prompts textuais. No entanto, quando pistas visuais intermediárias são fornecidas, o desempenho do modelo melhora consistentemente, resultando em um ganho relativo médio de 33,7% em todos os modelos e tarefas. Também investigamos o limite superior expandindo o espaço de busca e projetando prompts textuais alinhados com o CoT Visual, mas ambas as abordagens produzem apenas melhorias limitadas em comparação com nossa configuração de CoT Visual. Esses resultados ressaltam o papel crítico da informação visual imaginada para permitir um raciocínio bem-sucedido no MIRA.
Apresentamos o Step-Audio-EditX, o primeiro modelo de áudio baseado em LLM de código aberto que se destaca na edição de áudio expressiva e iterativa, abrangendo emoção, estilo de fala e paralinguística, juntamente com robustas capacidades de conversão de texto em fala (TTS) zero-shot. Nossa principal inovação reside na utilização exclusiva de dados sintéticos de grande margem, o que dispensa a necessidade de prévias baseadas em *embeddings* ou módulos auxiliares. Esta abordagem de aprendizado de grande margem permite tanto o controle iterativo quanto a alta expressividade entre vozes, e representa uma mudança fundamental em relação ao foco convencional no desacoplamento em nível de representação. Os resultados da avaliação demonstram que o Step-Audio-EditX supera tanto o MiniMax-2.6-hd quanto o Doubao-Seed-TTS-2.0 em tarefas de edição de emoção e outras tarefas de controle de granularidade fina.
Os modelos de linguagem grandes multimodais (MLLMs) devem resolver conflitos quando diferentes modalidades fornecem informações contraditórias, um processo que denominamos de seguimento de modalidade. Trabalhos anteriores mediram este comportamento apenas com estatísticas grosseiras a nível de conjunto de dados, negligenciando a influência da confiança do modelo no raciocínio unimodal. Neste artigo, introduzimos um novo quadro conceptual que decompõe o seguimento de modalidade em dois fatores fundamentais: a incerteza relativa do raciocínio (o diferencial de confiança específico do caso entre as previsões unimodais) e a preferência modal inerente (um viés estável do modelo quando as incertezas estão equilibradas). Para validar este quadro, construímos um conjunto de dados controlável que varia sistematicamente a dificuldade de raciocínio dos inputs visuais e textuais. Utilizando a entropia como uma métrica de incerteza de granularidade fina, descobrimos uma lei universal: a probabilidade de seguir uma modalidade diminui monotonicamente à medida que a sua incerteza relativa aumenta. No nível de dificuldade relativa em que o modelo tende a seguir ambas as modalidades com probabilidade comparável – o que chamamos de ponto de equilíbrio –, encontramos um indicador prático da preferência inerente do modelo. Ao contrário das razões macro tradicionais, esta medida oferece uma forma mais fundamentada e menos confundida de caracterizar o viés modal, separando-o das capacidades unimodais e de artefactos do conjunto de dados. Adicionalmente, ao sondar previsões por camadas, revelamos o mecanismo interno de oscilação: em regiões ambíguas próximas do ponto de equilíbrio, os modelos vacilam entre modalidades ao longo das camadas, explicando a indecisão observada externamente. Em conjunto, estes resultados estabelecem a incerteza relativa e a preferência inerente como os dois princípios regentes do seguimento de modalidade, oferecendo tanto um quadro quantitativo como uma perceção mecanicista de como os MLLMs resolvem informações conflituosas.
A trajetória do desenvolvimento da IA sugere que iremos depender cada vez mais de sistemas baseados em agentes, compostos por agentes desenvolvidos de forma independente, com diferentes informações, privilégios e ferramentas. O sucesso destes sistemas dependerá criticamente de uma colaboração eficaz entre estes agentes heterogêneos, mesmo sob observabilidade parcial. Apesar do intenso interesse, poucos estudos empíricos avaliaram tal colaboração agente-agente em larga escala. Propomos um benchmark colaborativo de resolução de labirintos que (i) isola as capacidades colaborativas, (ii) modula a complexidade do problema, (iii) permite uma avaliação automatizada escalável e (iv) não impõe restrições de formato de saída, preservando a plausibilidade ecológica. Utilizando este quadro de avaliação, avaliamos 32 dos principais modelos *open-source* e proprietários em configurações individuais, homogéneas e heterogéneas. Os nossos resultados revelam uma "lacuna de colaboração": modelos com bom desempenho individual degradam-se substancialmente quando obrigados a colaborar. A colaboração pode falhar drasticamente; por exemplo, pequenos modelos destilados que resolvem labirintos sozinhos podem falhar quase completamente em certos pares. Descobrimos que começar com o agente mais forte frequentemente melhora os resultados, motivando uma abordagem de "inferência por revezamento" onde o agente mais forte lidera antes de passar a tarefa para o mais fraco, fechando grande parte da lacuna. As nossas descobertas defendem (1) uma avaliação consciente da colaboração, (2) estratégias de treino desenvolvidas para melhorar as capacidades colaborativas, e (3) um design de interação que elicie de forma confiável as competências latentes dos agentes, orientações que se aplicam tanto à colaboração IA-IA como humano-IA.
Modelos de linguagem grandes (LLMs) treinados para raciocínio passo a passo frequentemente tornam-se excessivamente verbosos, aumentando o custo de inferência. Os fluxos padrão de Aprendizado por Reforço com Recompensas Verificáveis (RLVR) filtram problemas "fáceis" para eficiência de treinamento, deixando o modelo treinar principalmente em problemas mais difíceis que exigem cadeias de raciocínio mais longas. Isso distorce a distribuição do comprimento da saída para cima, resultando em um modelo que confunde "pensar por mais tempo" com "pensar melhor". Neste trabalho, mostramos que reter e ponderar moderadamente problemas moderadamente fáceis atua como um regularizador implícito de comprimento. Expor o modelo a tarefas solucionáveis de cadeia curta restringe sua distribuição de saída e evita a verbosidade descontrolada. O resultado é uma **brevidade emergente gratuita**: o modelo aprende a resolver problemas mais difíceis sem inflacionar o comprimento da saída, apesar da ausência de qualquer penalização explícita de comprimento. Experimentos RLVR usando esta abordagem no Qwen3-4B-Thinking-2507 (com limite de 16k tokens) alcançam a precisão pass@1 de linha de base AIME25 enquanto geram soluções que são, em média, quase duas vezes mais curtas. O código está disponível em https://github.com/MBZUAI-Paris/Frugal-AI, com conjuntos de dados e modelos em https://huggingface.co/collections/MBZUAI-Paris/k2-think-mini-68dcfa8b114686a4bd3dc2bc.
A reconstrução de imagens visualizadas por pessoas a partir dos seus registos de fMRI cerebral fornece uma janela não invasiva para o cérebro humano. Apesar dos progressos recentes possibilitados pelos modelos de difusão, os métodos atuais frequentemente carecem de fidelidade às imagens realmente visualizadas. Apresentamos "Brain-IT", uma abordagem inspirada no cérebro que enfrenta este desafio através de um *Brain Interaction Transformer* (BIT), permitindo interações eficazes entre aglomerados de voxels cerebrais funcionalmente semelhantes. Estes aglomerados funcionais são partilhados por todos os sujeitos, servindo como blocos de construção para integrar informação tanto dentro como entre cérebros. Todos os componentes do modelo são partilhados por todos os aglomerados e sujeitos, permitindo um treino eficiente com uma quantidade limitada de dados. Para orientar a reconstrução da imagem, o BIT prevê duas características de imagem localizadas a nível de *patch*, complementares: (i) características semânticas de alto nível que direcionam o modelo de difusão para o conteúdo semântico correto da imagem; e (ii) características estruturais de baixo nível que ajudam a inicializar o processo de difusão com o *layout* grosseiro correto da imagem. O desenho do BIT permite o fluxo direto de informação dos aglomerados de voxels cerebrais para características de imagem localizadas. Através destes princípios, o nosso método alcança reconstruções de imagens a partir de fMRI que reconstroem fielmente as imagens visualizadas, e supera as abordagens atuais do estado da arte tanto visualmente como por métricas objetivas padrão. Além disso, com apenas 1 hora de dados de fMRI de um novo sujeito, alcançamos resultados comparáveis aos métodos atuais treinados com registos completos de 40 horas.
Os grandes modelos multimodais (LMMs) frequentemente sofrem de severa ineficiência inferencial devido ao grande número de *tokens* visuais introduzidos pelos codificadores de imagem. Embora métodos recentes de compressão de *tokens*, como poda (*pruning*) e fusão (*merging*), tenham mostrado potencial na redução de redundâncias, a sua avaliação permanece fragmentada e inconsistente. Neste trabalho, apresentamos o UniPruneBench, um *benchmark* unificado e extensível para a poda de *tokens* visuais em *LLMs* multimodais. O UniPruneBench fornece protocolos padronizados em seis dimensões de capacidade e dez conjuntos de dados, abrangendo dez algoritmos de compressão representativos e três famílias de LMMs (LLaVA-v1.5, Intern-VL3 e Qwen2.5-VL). Para além da precisão da tarefa, incorpora métricas de nível de sistema, como tempo de execução e latência de pré-preenchimento, para fornecer uma visão holística. As nossas experiências revelam várias conclusões-chave: (1) a poda aleatória é uma linha de base surpreendentemente robusta, (2) nenhum método único supera consistentemente os outros em todos os cenários, (3) a sensibilidade à poda varia significativamente entre tarefas, sendo o OCR o mais vulnerável, e (4) a taxa de poda é o fator dominante que governa a degradação do desempenho. Acreditamos que o UniPruneBench servirá como uma base confiável para futuras pesquisas sobre modelagem multimodal eficiente.
Os benchmarks atuais para codificação avaliam modelos de linguagem (LMs) em tarefas concretas e bem especificadas, como corrigir bugs específicos ou escrever testes direcionados. No entanto, programadores humanos não passam o dia todo a resolver incessantemente tarefas isoladas. Pelo contrário, o desenvolvimento de software no mundo real está ancorado na prossecução de objetivos de alto nível, como melhorar a retenção de utilizadores ou reduzir custos. Avaliar se os LMs também podem desenvolver código de forma iterativa para melhor cumprir objetivos abertos, sem qualquer orientação explícita, continua a ser um desafio em aberto. Para resolver isto, apresentamos o CodeClash, um benchmark onde os LMs competem em torneios de várias rondas para construir a melhor base de código para alcançar um objetivo competitivo. Cada ronda decorre em duas fases: os agentes editam o seu código e, em seguida, as suas bases de código competem diretamente numa arena de código que determina os vencedores com base em objetivos como maximização de pontuação, aquisição de recursos ou sobrevivência. Quer seja a escrever notas, a examinar documentação, a analisar registos de competição ou a criar conjuntos de testes, os modelos devem decidir por si próprios como melhorar as suas bases de código, tanto em termos absolutos como face aos seus oponentes. Executámos 1680 torneios (25.200 rondas no total) para avaliar 8 LMs em 6 arenas. Os nossos resultados revelam que, embora os modelos exibam estilos de desenvolvimento diversos, partilham limitações fundamentais no raciocínio estratégico. Os modelos também lutam com a manutenção a longo prazo da base de código, uma vez que os repositórios se tornam progressivamente confusos e redundantes. Estas limitações são severas: os melhores modelos perdem todas as rondas contra programadores humanos especializados. Disponibilizamos o CodeClash como código aberto para avançar o estudo do desenvolvimento de código autónomo e orientado a objetivos.
Dados em larga escala têm impulsionado avanços na robótica, desde modelos de linguagem até modelos visão-linguagem-ação na manipulação bimanual. No entanto, a robótica humanóide carece de estruturas de coleta de dados igualmente eficazes. Os sistemas de teleoperação humanóide existentes utilizam controle desacoplado ou dependem de configurações caras de captura de movimento. Apresentamos o TWIST2, um sistema portátil e livre de mocap para teleoperação e coleta de dados de humanoides que preserva o controle integral do corpo enquanto avança a escalabilidade. Nosso sistema aproveita o PICO4U VR para obter movimentos humanos integrais em tempo real, com um pescoço robótico personalizado de 2 graus de liberdade (custo aproximado de US$ 250) para visão egocêntrica, permitindo um controle holístico de humano para humanoide. Demonstramos habilidades humanoides dextras e móveis de longo horizonte e podemos coletar 100 demonstrações em 15 minutos com uma taxa de sucesso de quase 100%. Com base neste pipeline, propomos uma estrutura de política visuomotora hierárquica que controla autônoma e integralmente o corpo humanoide com base na visão egocêntrica. Nossa política visuomotora demonstra com sucesso tarefas de manipulação ágil integral e chutes dinâmicos. Todo o sistema é totalmente reproduzível e de código aberto em https://yanjieze.com/TWIST2. Nosso conjunto de dados coletado também é de código aberto em https://twist-data.github.io.
A testagem em máquinas reais é indispensável para algoritmos de controle robótico. No contexto de algoritmos baseados em aprendizagem, especialmente modelos VLA, a demanda por avaliação em larga escala - ou seja, testar um grande número de modelos em uma grande variedade de tarefas - torna-se cada vez mais urgente. No entanto, executar este processo adequadamente é altamente complexo, especialmente quando são considerados a escalabilidade e a reprodutibilidade. Neste relatório, descrevemos nossa metodologia para construir o RoboChallenge, um sistema de avaliação online para testar algoritmos de controle robótico, e nosso levantamento dos modelos VLA state-of-the-art recentes utilizando nossa métrica inicial Table30.
Os paradigmas atuais de avaliação de modelos de linguagem de grande porte (LLMs) representam um ponto cego crítico na pesquisa de IA – baseando-se em métricas numéricas opacas que ocultam limitações fundamentais no raciocínio espacial, sem fornecer qualquer compreensão intuitiva das capacidades dos modelos. Esta deficiência cria uma desconexão perigosa entre o desempenho reportado e as habilidades práticas, particularmente para aplicações que exigem compreensão do mundo físico. Apresentamos o LTD-Bench, um benchmark revolucionário que transforma a avaliação de LLMs de pontuações abstratas para saídas visuais diretamente observáveis, exigindo que os modelos gerem desenhos através de matrizes de pontos ou código executável. Esta abordagem torna as limitações do raciocínio espacial imediatamente aparentes, mesmo para não especialistas, preenchendo a lacuna fundamental entre o desempenho estatístico e a avaliação intuitiva. O LTD-Bench implementa uma metodologia abrangente com tarefas complementares de geração (testando a imaginação espacial) e de reconhecimento (avaliando a perceção espacial) em três níveis de dificuldade progressivamente desafiadores, avaliando metodicamente ambas as direções do mapeamento crítico linguagem-espaço. As nossas experiências extensivas com modelos de última geração expõem uma lacuna de capacidades alarmante: mesmo LLMs que alcançam resultados impressionantes em benchmarks tradicionais demonstram deficiências profundas no estabelecimento de mapeamentos bidirecionais entre linguagem e conceitos espaciais – uma limitação fundamental que compromete o seu potencial como modelos genuínos do mundo. Adicionalmente, as saídas visuais do LTD-Bench permitem uma poderosa análise de diagnóstico, oferecendo uma abordagem potencial para investigar a similaridade entre modelos.
Os Modelos de Linguagem de Grande Porte demonstraram um forte desempenho em muitos benchmarks de raciocínio estabelecidos. No entanto, estes benchmarks avaliam principalmente competências estruturadas, como a resolução quantitativa de problemas, deixando uma lacuna na avaliação de capacidades de raciocínio flexíveis e multifacetadas que são centrais para a inteligência humana. Estas capacidades requerem a integração da dedução lógica com a perceção espacial e a satisfação de restrições, aspetos que as avaliações atuais não medem bem. Para colmatar esta lacuna, apresentamos o RiddleBench, um benchmark composto por 1.737 puzzles desafiadores em inglês, concebido para sondar estas capacidades fundamentais de raciocínio. A avaliação de modelos de última geração no RiddleBench revela fraquezas fundamentais. Mesmo os principais modelos proprietários, como o Gemini 2.5 Pro, o o3 e o Claude 4 Sonnet, atingem uma precisão pouco acima de 60% (60,30%, 63,37% e 63,16%, respetivamente). A análise revela ainda falhas profundas, incluindo cascatas de alucinação (aceitação de raciocínios falhos de outros modelos) e uma fraca capacidade de autocorreção devido a um forte viés de autoconfirmação. O seu raciocínio é também frágil, com o desempenho a degradar-se significativamente quando as restrições são reordenadas ou é introduzida informação irrelevante. O RiddleBench funciona como uma ferramenta de diagnóstico para estas questões e como um recurso para orientar o desenvolvimento de modelos de linguagem mais robustos e fiáveis.
Apresentamos o iFlyBot-VLA, um modelo de grande escala Visão-Linguagem-Ação (VLA) treinado sob uma nova estrutura. As principais contribuições são listadas a seguir: (1) um modelo de ação latente treinado minuciosamente em vídeos de manipulação humana e robótica em grande escala; (2) uma estrutura de representação de ação de duplo nível que supervisiona conjuntamente tanto o Modelo de Visão-Linguagem (VLM) quanto o especialista em ação durante o treinamento; (3) uma estratégia de treinamento misto que combina dados de trajetória robótica com conjuntos de dados de QA geral e QA espacial, aprimorando efetivamente as capacidades de percepção 3D e raciocínio da espinha dorsal do VLM. Especificamente, o VLM é treinado para prever duas formas complementares de ações: ações latentes, derivadas do nosso modelo de ação latente pré-treinado em dados de manipulação de embodimento cruzado, que capturam intenções de alto nível implícitas; e tokens de ação discretos estruturados, obtidos por meio de transformações no domínio da frequência de sinais de controle contínuos, que codificam dinâmicas de baixo nível explícitas. Esta supervisão dupla alinha os espaços de representação da linguagem, visão e ação, permitindo que o VLM contribua diretamente para a geração de ações. Resultados experimentais no benchmark LIBERO Franka demonstram a superioridade de nossa estrutura, enquanto avaliações no mundo real mostram ainda que o iFlyBot-VLA alcança taxas de sucesso competitivas em diversas tarefas de manipulação desafiadoras. Além disso, planejamos disponibilizar como código aberto uma parte do nosso conjunto de dados autoconstruído para apoiar pesquisas futuras na comunidade.
Os modelos de linguagem de grande escala (LLMs) demonstraram capacidades notáveis em inúmeras aplicações do mundo real. Embora a grande maioria das pesquisas conduzidas a partir de uma perspectiva experimental esteja progredindo rapidamente, ela demanda poder computacional substancial, dados e outros recursos. Portanto, como abrir a caixa-preta dos LLMs do ponto de vista teórico tornou-se um desafio crítico. Este artigo toma a teoria da função taxa-distorção, informação direcionada e causalidade de Granger como ponto de partida para investigar os princípios da teoria da informação por trás dos LLMs, levando ao desenvolvimento de uma teoria da informação semântica para LLMs, onde a unidade fundamental é o *token*, e não os *bits* que carecem de qualquer significado semântico. Ao definir o modelo probabilístico dos LLMs, discutimos medidas da teoria da informação agnósticas à estrutura, como a função taxa-distorção direcionada no pré-treinamento, a função taxa-recompensa direcionada no pós-treinamento e o fluxo de informação semântica na fase de inferência. Este artigo também se aprofunda na teoria da incorporação semântica a nível de *token* e no método de vetorização ótimo do ponto de vista da teoria da informação. A partir daí, propomos uma definição geral de LLM autoregressivo, onde a arquitetura Transformer e seu desempenho, como ELBO, limite de erro de generalização, capacidade de memória e medidas de informação semântica, podem ser derivados teoricamente. Outras arquiteturas, como Mamba/Mamba2 e LLaDA, também são discutidas em nossa estrutura. Consequentemente, este artigo fornece uma estrutura teórica para compreender os LLMs a partir da perspectiva da teoria da informação semântica, o que também oferece as ferramentas teóricas necessárias para pesquisas aprofundadas futuras.
Tarefas complexas de compreensão de gráficos exigem capacidades avançadas de reconhecimento visual e raciocínio de modelos de linguagem multimodal (MLLMs). No entanto, as pesquisas atuais oferecem cobertura limitada de cenários complexos de gráficos e tarefas de raciocínio computacionalmente intensas prevalentes em aplicações do mundo real. Este estudo propõe um pipeline automatizado multiestágio orientado por código para gerar sistematicamente conjuntos de dados de raciocínio visual a fim de abordar essas limitações. O pipeline integra geração aumentada por recuperação (RAG) para recuperar modelos profissionais de gráficos e emprega estratégias de cadeia de pensamento (CoT) para gerar códigos de raciocínio que simulam distribuições de dados reais, impulsionando assim a renderização de gráficos e os cálculos estatísticos relacionados às perguntas. Por meio de avaliação baseada em modelo, o pipeline melhora a diversidade de gráficos e a qualidade dos dados. Utilizando este framework, construímos o ChartM³, um conjunto de dados multidimensional e multiestágio contendo 38 mil gráficos e 142 mil pares de perguntas e respostas para treinamento, juntamente com 2.871 amostras de avaliação de alta qualidade para permitir uma avaliação de desempenho prática. Experimentos de ajuste fino supervisionado (SFT) e aprendizado por reforço (RL) demonstram que nosso conjunto de dados melhora significativamente as capacidades de raciocínio e o desempenho de generalização cross-domain, permitindo que modelos menores alcancem desempenho comparável a modelos de maior escala na compreensão de gráficos complexos.
A compreensão e previsão de emoções em vídeos tem recebido atenção significativa em estudos recentes, impulsionada pelos avanços nos modelos de linguagem de grande escala para vídeo (VideoLLMs). Embora métodos avançados tenham progredido na análise de emoções em vídeo, a natureza intrínseca das emoções impõe desafios significativos. As emoções são caracterizadas por propriedades dinâmicas e dependentes de pistas, tornando difícil compreender estados emocionais complexos e em evolução com uma fundamentação razoável. Para enfrentar esses desafios, propomos uma nova estrutura de raciocínio guiada por pistas afetivas que unifica a percepção de atributos fundamentais, a análise de expressão e a compreensão emocional de alto nível de forma escalonada. O cerne da nossa abordagem é uma família de modelos fundamentais de emoção em vídeo (VidEmo), especificamente concebida para raciocínio emocional e seguimento de instruções. Estes modelos passam por um processo de ajuste em duas etapas: primeiro, uma aprendizagem emocional curricular para injetar conhecimento sobre emoções, seguida por uma aprendizagem por reforço com árvore afetiva para raciocínio emocional. Além disso, estabelecemos uma infraestrutura de dados fundamental e introduzimos um conjunto de dados granular centrado em emoções (Emo-CFG) composto por 2,1 milhões de amostras diversificadas baseadas em instruções. O Emo-CFG inclui questionários emocionais explicativos, legendas granulares e racionalizações associadas, fornecendo recursos essenciais para o avanço de tarefas de compreensão emocional. Resultados experimentais demonstram que a nossa abordagem alcança um desempenho competitivo, estabelecendo um novo marco em 15 tarefas de percepção facial.
Os grandes modelos de linguagem atuais se destacam em tarefas amplas e de propósito geral, mas apresentam desempenho consistentemente inferior quando expostos a domínios altamente especializados que exigem profunda expertise cultural, linguística e temática. Em particular, sistemas médicos tradicionais como o Ayurveda incorporam séculos de conhecimento textual e clínico nuances que os LLMs convencionais não conseguem interpretar ou aplicar com precisão. Apresentamos o AyurParam-2.9B, um modelo de linguagem bilíngue e especializado em domínio, refinado a partir do Param-1-2.9B usando um extenso conjunto de dados de Ayurveda criteriosamente curado por especialistas, abrangendo textos clássicos e orientações clínicas. O conjunto de dados do AyurParam incorpora Q&A contextual, de raciocínio e no estilo objetivo em inglês e hindi, com protocolos rigorosos de anotação para precisão factual e clareza instrucional. Avaliado no BhashaBench-Ayur, o AyurParam não apenas supera todos os modelos de código aberto ajustados por instrução em sua classe de tamanho (1,5–3B de parâmetros), mas também demonstra desempenho competitivo ou superior em comparação com modelos muito maiores. Os resultados do AyurParam destacam a necessidade de uma adaptação de domínio autêntica e supervisão de alta qualidade para oferecer IA confiável e culturalmente congruente para conhecimentos médicos especializados.
À medida que a carga global da doença de Alzheimer (DA) continua a crescer, a deteção precoce e precisa tornou-se cada vez mais crítica, especialmente em regiões com acesso limitado a ferramentas de diagnóstico avançadas. Propomos o BRAINS (Biomedical Retrieval-Augmented Intelligence for Neurodegeneration Screening) para enfrentar este desafio. Este sistema inovador aproveita as poderosas capacidades de raciocínio dos Modelos de Linguagem de Grande Escala (LLMs) para a deteção e monitorização da doença de Alzheimer. O BRAINS apresenta uma arquitetura de duplo módulo: um módulo de diagnóstico cognitivo e um módulo de recuperação de casos. O Módulo de Diagnóstico utiliza LLMs afinados com conjuntos de dados cognitivos e de neuroimagem — incluindo escores MMSE, escores CDR e métricas de volume cerebral — para realizar avaliações estruturadas do risco de Alzheimer. Entretanto, o Módulo de Recuperação de Casos codifica os perfis dos pacientes em representações latentes e recupera casos semelhantes de uma base de conhecimento curada. Estes casos auxiliares são fundidos com o perfil de entrada através de uma Camada de Fusão de Casos para melhorar a compreensão contextual. A representação combinada é então processada com *prompts* clínicos para inferência. Avaliações em conjuntos de dados do mundo real demonstram a eficácia do BRAINS na classificação da gravidade da doença e na identificação de sinais precoces de declínio cognitivo. Este sistema não só mostra um forte potencial como ferramenta auxiliar para uma deteção escalável, explicável e em fase inicial da doença de Alzheimer, como também oferece esperança para futuras aplicações neste campo.
Neste trabalho, propomos o LiveSecBench, um benchmark de segurança dinâmico e continuamente atualizado, especificamente desenvolvido para cenários de aplicação de LLMs em língua chinesa. O LiveSecBench avalia os modelos em seis dimensões críticas (Legalidade, Ética, Factualidade, Privacidade, Robustez Adversarial e Segurança no Raciocínio) fundamentadas nos quadros legais e sociais chineses. Este benchmark mantém a relevância através de um cronograma de atualização dinâmica que incorpora novos vetores de ameaça, como a inclusão planejada da Segurança na Geração de Texto para Imagem e da Segurança em Agentes na próxima atualização. Atualmente, o LiveSecBench (v251030) avaliou 18 LLMs, fornecendo um panorama da segurança da IA no contexto da língua chinesa. O ranking está publicamente acessível em https://livesecbench.intokentech.cn/.
Os modelos de difusão texto-imagem (T2I) alcançaram um desempenho robusto no alinhamento semântico, mas ainda enfrentam dificuldades para gerar a quantidade correta de objetos especificada nas instruções. As abordagens existentes geralmente incorporam redes auxiliares de contagem como críticos externos para melhorar a numeracia. No entanto, como esses críticos devem fornecer orientação por gradiente durante a geração, ficam restritos a modelos baseados em regressão que são intrinsecamente diferenciáveis, excluindo assim modelos baseados em detectores – que possuem capacidade de contagem superior – cuja natureza de "contar via enumeração" é não diferenciável. Para superar essa limitação, propomos o Detector-to-Differentiable (D2D), uma estrutura inovadora que transforma modelos de detecção não diferenciáveis em críticos diferenciáveis, permitindo assim aproveitar sua capacidade superior de contagem para orientar a geração de numeracia. Especificamente, projetamos funções de ativação personalizadas para converter os *logits* do detector em indicadores binários suaves, que são então usados para otimizar o ruído prévio no momento da inferência com modelos T2I pré-treinados. Nossos experimentos abrangentes com SDXL-Turbo, SD-Turbo e Pixart-DMD em quatro *benchmarks* de complexidade variada (cenários de baixa densidade, alta densidade e múltiplos objetos) demonstram melhorias consistentes e substanciais na precisão da contagem de objetos (por exemplo, um aumento de até 13,7% no D2D-Small, um *benchmark* de baixa densidade com 400 instruções), com degradação mínima na qualidade geral da imagem e sobrecarga computacional.
O raciocínio complexo sobre dados tabulares é crucial na análise de dados do mundo real, contudo, os grandes modelos de linguagem (LLMs) frequentemente apresentam desempenho inferior devido a consultas complexas, dados ruidosos e capacidades numéricas limitadas. Para resolver essas questões, propomos o \method, um framework constituído por: (1) um decompositor de consultas que decompõe questões complexas, (2) um saneador de tabelas que limpa e filtra tabelas ruidosas, e (3) um raciocinador baseado em Programas de Pensamento (PoT) que gera código executável para derivar a resposta final a partir da tabela saneada. Para garantir uma avaliação imparcial e mitigar o vazamento de dados, introduzimos um novo conjunto de dados, o CalTab151, especificamente concebido para o raciocínio numérico complexo sobre tabelas. Resultados experimentais demonstram que o \method supera consistentemente os métodos existentes, alcançando um desempenho de estado da arte (SOTA) com melhorias de precisão de 8,79%, 6,08% e 19,87% no TAT-QA, TableBench e \method, respetivamente. Adicionalmente, o nosso framework integra-se perfeitamente com os LLMs predominantes, fornecendo uma solução robusta para o raciocínio numérico complexo sobre tabelas. Estes resultados evidenciam a eficácia do nosso framework na melhoria do desempenho dos LLMs para o raciocínio numérico complexo sobre dados tabulares. Os dados e o código estão disponíveis mediante solicitação.
A aprendizagem não supervisionada de profundidade e movimento egocêntrico, duas tarefas fundamentais de percepção 3D, tem registado progressos significativos nos últimos anos. No entanto, a maioria dos métodos trata o movimento egocêntrico como uma tarefa auxiliar, seja misturando todos os tipos de movimento ou excluindo movimentos rotacionais independentes da profundidade na supervisão. Tais projetos limitam a incorporação de fortes restrições geométricas, reduzindo a fiabilidade e robustez sob condições diversas. Este estudo introduz um tratamento discriminativo dos componentes de movimento, aproveitando as regularidades geométricas dos seus respetivos fluxos rígidos para beneficiar tanto a estimativa de profundidade como a de movimento egocêntrico. Dados fotogramas de vídeo consecutivos, as saídas da rede alinham primeiro os eixos óticos e os planos de imagem das câmaras de origem e destino. Os fluxos óticos entre fotogramas são transformados através destes alinhamentos, e os desvios são quantificados para impor restrições geométricas individualmente em cada componente de movimento egocêntrico, permitindo um refinamento mais direcionado. Estes alinhamentos reformulam ainda mais o processo de aprendizagem conjunta em formas coaxial e coplanar, onde a profundidade e cada componente de translação podem ser mutuamente derivados através de relações geométricas de forma fechada, introduzindo restrições complementares que melhoram a robustez da profundidade. O DiMoDE, uma estrutura geral de aprendizagem conjunta de profundidade e movimento egocêntrico que incorpora estes projetos, atinge um desempenho de ponta em múltiplos conjuntos de dados públicos e num novo conjunto de dados do mundo real diversificado, particularmente sob condições desafiadoras. O nosso código fonte estará publicamente disponível em mias.group/DiMoDE após a publicação.
Estudos recentes identificaram a Otimização Direta de Preferências (DPO) como uma abordagem eficiente e livre de recompensas para melhorar a qualidade da geração de vídeos. No entanto, os métodos existentes seguem amplamente paradigmas do domínio de imagem e foram desenvolvidos principalmente em modelos de pequena escala (aproximadamente 2 bilhões de parâmetros), limitando sua capacidade de abordar os desafios únicos das tarefas de vídeo, como a construção onerosa de dados, o treinamento instável e o alto consumo de memória. Para superar essas limitações, introduzimos um GT-Pair que constrói automaticamente pares de preferência de alta qualidade usando vídeos reais como positivos e vídeos gerados por modelos como negativos, eliminando a necessidade de qualquer anotação externa. Apresentamos ainda o Reg-DPO, que incorpora a perda SFT como termo de regularização no objetivo DPO para melhorar a estabilidade do treinamento e a fidelidade da geração. Adicionalmente, ao combinar a estrutura FSDP com múltiplas técnicas de otimização de memória, nossa abordagem alcança uma capacidade de treinamento quase três vezes maior do que usando apenas FSDP. Experimentos extensivos em tarefas de I2V e T2V em múltiplos conjuntos de dados demonstram que nosso método supera consistentemente as abordagens existentes, proporcionando qualidade superior na geração de vídeos.