번역이 포함된 일일 선별된 AI 연구 논문
대형 언어 모델(Large Language Models, LLMs)은 추론 작업에서 놀라운 성능을 보여주었습니다. 이들은 자기 회귀 토큰 생성을 활용하여 추론 경로를 구성하여 일관된 사고 체인의 발전을 가능케 합니다. 본 연구에서는 개별 토큰이 추론 작업의 최종 결과에 미치는 영향을 탐구합니다. 우리는 LLMs에서 잘못된 추론 경로로 이끄는 "중요 토큰(critical tokens)"의 존재를 확인합니다. 구체적으로, 우리는 중요 토큰 대신 다른 토큰을 해독하도록 강요했을 때 LLMs가 긍정적인 결과를 내는 경향을 발견했습니다. 이 관찰을 바탕으로 우리는 중요 토큰에 대한 토큰 수준 보상을 자동으로 인식하고 수행하는 cDPO라는 새로운 접근법을 제안합니다. 구체적으로, 우리는 긍정적 및 부정적 모델의 생성 가능성을 비교함으로써 중요 토큰을 자동으로 식별하는 대조적 추정 방법을 개발합니다. 이를 위해 우리는 긍정적 및 부정적 모델을 각각 다양한 추론 경로에 대해 별도로 세밀하게 조정하여, 잘못된 결과에 기여하는 잘못된 추론 경로 내 중요 토큰을 식별할 수 있게 합니다. 더불어, 중요 토큰 정보와 모델을 더 잘 일치시키기 위해 일반적인 DPO 알고리즘을 토큰 수준 DPO로 확장하고, 상기한 긍정적 및 부정적 모델로부터의 차이 가능성을 중요한 가중치로 활용하여 토큰 수준 DPO 학습을 진행합니다. GSM8K 및 MATH500 벤치마크에서 두 가지 널리 사용되는 모델인 Llama-3(8B 및 70B) 및 deepseek-math(7B)를 사용한 실험 결과는 제안된 cDPO 접근법의 효과를 입증합니다.
현재의 비디오 생성 모델은 짧은 클립을 생성하는 데 뛰어나지만 여전히 여러 장면으로 이루어진 영화와 같은 비디오를 만드는 데 어려움을 겪고 있습니다. 대규모 데이터로 훈련된 기존 모델은 풍부한 계산 자원을 바탕으로 훈련되었지만 종종 단일 샷 목표로 훈련되어 일관된 논리적인 스토리와 시각적 일관성을 유지하는 데 부족함이 불가피합니다. 이에 우리는 VideoGen-of-Thought (VGoT)를 제안합니다. 이는 협력적이고 훈련이 필요 없는 아키텍처로, 특히 다중 샷 비디오 생성을 위해 설계되었습니다. VGoT는 다음과 같은 세 가지 목표를 갖고 설계되었습니다. 다중 샷 비디오 생성: 비디오 생성 과정을 구조화된 모듈 시퀀스로 나누어 (1) 스크립트 생성, (2) 키프레임 생성, (3) 샷 수준 비디오 생성 및 (4) 일관된 다중 샷 출력을 보장하는 스무딩 메커니즘을 포함합니다. 합리적인 서술 디자인: 영화 시나리오 작성에서 영감을 받은 우리의 프롬프트 생성 방식은 논리적 일관성, 캐릭터 발전, 전체 비디오에 걸쳐 서술 흐름을 보장하기 위해 다섯 가지 주요 영역을 포함합니다. 샷 간 일관성: 서술에서 자동으로 생성된 캐릭터 특성을 유지하는 ID 임베딩을 활용하여 시간적 및 신원 일관성을 보장합니다. 또한 인접한 샷의 잠재적 특징을 효과적으로 결합하여 부드러운 전환을 유지하고 비디오 전체에서 시각적 일관성을 유지하는 재설정 경계를 통합하는 샷 간 스무딩 메커니즘을 통합합니다. 실험 결과 VGoT가 고품질, 일관된 다중 샷 비디오를 생성하는 데 기존 비디오 생성 방법을 능가함을 보여줍니다.
LLM 간의 효과적인 협력을 가능하게 하는 것은 복잡한 문제를 해결할 수 있는 자율 시스템을 개발하는 중요한 단계입니다. LLM은 일반적으로 단일 모델 생성기로 사용되지만, 인간이 그들의 출력물을 비평하고 개선하는 곳에서 공동 훈련된 협력 모델의 잠재력은 여전히 탐구되지 않은 상태입니다. 다중 에이전트 통신 및 토론 환경에서 융합된 모델들에 대한 유망한 결과가 있음에도 불구하고, 모델들을 과제에 협력하여 작업하도록 훈련하는 데는 아직 많은 진전이 이루어지지 않았습니다. 본 논문에서는 추론 문제에 대한 "다중 에이전트 LLM 훈련" (MALT)의 첫 번째 단계를 제시합니다. 저희 방법은 특화된 역할을 맡은 이질적 LLM들을 사용하는 순차적 다중 에이전트 설정을 활용하여 문제를 반복적으로 해결합니다. 우리는 궤적 확장 기반의 합성 데이터 생성 프로세스와 공동 결과를 기반으로 한 보상에 의해 주도되는 신용 할당 전략을 제안합니다. 이를 통해 훈련 후 설정에서 긍정적 및 부정적 궤적을 활용하여 각 모델의 특화된 능력을 자율적으로 향상시키는 것이 가능하며, 이는 공동 순차 시스템의 일부로 작동합니다. 우리는 MATH, GSM8k 및 CQA를 통해 접근 방식을 평가했으며, Llama 3.1 8B 모델에 대한 MALT는 동일한 기준 모델 대비 각각 14.14%, 7.12%, 9.40%의 상대적 향상을 달성했습니다. 이는 수학 및 상식적 추론 문제의 성능에 대한 다중 에이전트 협력 능력의 초기 진전을 보여줍니다. 보다 일반적으로, 저희의 연구는 다중 에이전트 LLM 훈련 방법 주변의 연구에 대한 구체적인 방향을 제시합니다.
상응하는 결과 보상 모델(ORMs)과는 달리 전체 응답을 평가하는 대신, 과정 보상 모델(PRMs)은 추론 경로를 단계별로 점수를 매겨 보다 밀도 높고 세밀한 보상을 제공합니다. 그러나 PRM을 훈련하기 위해서는 중간 단계마다 주석이 달린 레이블이 필요하여 수동 및 자동 데이터 수집에 상당한 어려움을 제시합니다. 본 논문은 이러한 도전 과제에 대응하기 위해 목적을 두고 있습니다. 이론적으로와 경험적으로, 저희는 보다 저렴한 응답 수준 레이블로 ORM을 간단히 훈련함으로써 추가 비용 없이 암시적 PRM을 얻을 수 있다는 것을 보여줍니다. 유일한 가정은 결과 보상을 정책 및 참조 모델의 로그 우도 비율로 매개변수화하는 것이며, 이는 특정 손실 목표의 선택과 관계없이 최적화할 수 있습니다. 실험에서는 다양한 목표로 암시적 PRM을 구체화하고 MATH에서의 성능을 평가합니다. 저희는 암시적 PRM이 강력한 MCTS 기반 기준 모델인 Math-Shepherd보다 훈련 데이터의 1/38 미만을 사용하여 우수한 성과를 보인다는 것을 보여줍니다. 성능은 다수결 투표로 더 개선될 수 있습니다. 또한 지침 및 응답의 확장이 암시적 PRM에 이점을 제공하며, 후자가 더 큰 이득을 가져옵니다. 특히, CE(교차 엔트로피) 손실을 사용하여 구체화된 암시적 PRM은 데이터 효율적이며 지시사항 당 단 하나의 응답으로 훈련되었을 때에도 생성 모델을 계속 개선할 수 있음을 보여줍니다. 지시사항은 하류 작업과 관련이 있어야 하며 응답의 다양성은 이익을 가져오지 않습니다. 놀랍게도, 추가 Math-Shepherd 단계 레이블로 훈련하는 것은 오직 결과 데이터만 사용하여 훈련된 암시적 PRM에 추가적인 개선을 가져오지 않습니다. 우리의 연구가 PRM 훈련 접근 방식을 재고하도록 독려하고 PRM 훈련을 보다 접근 가능하게 하는 데 기여할 것으로 기대합니다.
대형 언어 모델(LLM)은 시각 데이터인 이미지와 비디오에 대한 강력한 이해를 나타내는 멀티모달 LLM의 생성을 가능케했습니다. 그러나 이러한 모델은 일반적으로 시각 인코더로부터의 광범위한 시각 토큰에 의존하며, 이는 높은 계산 요구를 야기하여 자원 제한적 환경 및 장기간 컨텍스트 작업에서의 적용 가능성을 제한합니다. 본 연구에서는 멀티모달 LLM을 위한 훈련 없이 적응 추론 방법을 제안합니다. 이 방법은 최소한의 성능 하락으로 다양한 효율 요구 사항을 수용할 수 있습니다. 우리의 방법은 LLM 이전에 임베딩 유사성에 기반한 반복적인 토큰 병합과 멀티모달 중요도에 기초한 LLM 레이어 내 점진적인 토큰 가지치기로 구성됩니다. 우리의 방법은 간소한 디자인으로 비디오 및 이미지 LLM에 모두 적용할 수 있습니다. 다양한 비디오 및 이미지 벤치마크에서의 포괄적인 실험 결과는 우리의 방법이 계산 부하를 크게 줄이면서(예: FLOP의 7배 감소) 비디오 및 이미지 LLM의 성능을 유지하는 것을 보여줍니다. 더불어 유사한 계산 비용 하에서 우리의 방법이 장기 비디오 이해에서 최첨단 기법을 능가하는 것을 확인할 수 있습니다(예: MLVU에서 +4.6). 게다가 우리의 철저한 분석은 토큰 중복과 LLM 레이어 동작에 대한 통찰을 제공하여 효율적인 멀티모달 LLM 설계에 대한 미래 연구에 대한 지침을 제공합니다. 우리의 코드는 https://github.com/LaVi-Lab/AIM에서 제공될 예정입니다.
최근에는 GPT-4o, Gemini 1.5 Pro, 그리고 Reka Core와 같은 다중 모달 대형 언어 모델(MLLMs)이 시각 및 음향 모드를 포함한 기능을 확장했습니다. 이러한 모델들은 다양한 음향-시각 응용 프로그램에서 인상적인 성능을 보여주지만, 우리가 제안하는 DeafTest는 MLLMs이 종종 인간이 사소하게 여기는 간단한 작업에 어려움을 겪는 것을 보여줍니다: 1) 두 소리 중 어느 소리가 더 큰지 결정하는 것, 그리고 2) 두 소리 중 어느 소리가 더 높은 음높이를 가지는지 결정하는 것입니다. 이러한 관찰을 바탕으로, 우리는 AV-Odyssey Bench를 소개합니다. 이는 이러한 MLLMs이 음향-시각 정보를 실제로 이해할 수 있는지 평가하기 위해 설계된 포괄적인 음향-시각 벤치마크입니다. 이 벤치마크는 텍스트, 시각, 그리고 음향 구성 요소를 모두 포함하는 각각 4,555개의 신중하게 설계된 문제를 포함합니다. 모델이 정답을 올바르게 추론하기 위해서는 시각 및 음향 입력에서 나타나는 단서를 효과적으로 활용해야 합니다. MLLM 응답을 정확하고 객관적으로 평가하기 위해 우리는 질문을 객관식으로 구성하여 인간 평가나 LLM 지원 평가의 필요성을 제거했습니다. 우리는 일련의 폐쇄 소스 및 오픈 소스 모델을 벤치마킹하고 관찰을 요약했습니다. 현재 모델의 한계를 밝혀 나가면서, 미래 데이터셋 수집 및 모델 개발에 유용한 통찰을 제공하는 것을 목표로 합니다.
검색 증강 생성 (RAG)은 대규모 언어 모델 (LLM)을 강화하여 외부 지식을 통합하여 환각을 줄이고 다시 교육하지 않고 최신 정보를 통합합니다. RAG의 중요한 부분으로 외부 지식 베이스는 광학 문자 인식 (OCR)을 사용하여 비구조화된 PDF 문서에서 구조화된 데이터를 추출하여 일반적으로 구축됩니다. 그러나 OCR의 불완전한 예측과 구조화된 데이터의 본질적인 비균일 표현으로 인해, 지식 베이스에는 불가피하게 다양한 OCR 잡음이 포함됩니다. 본 논문에서는 RAG 시스템에 OCR의 연쇄적 영향을 이해하기 위한 첫 번째 벤치마크 인 OHRBench를 소개합니다. OHRBench에는 여섯 가지 실제 RAG 응용 분야에서 유래된 350개의 신중히 선정된 비구조화된 PDF 문서와 문서의 다중 모달 요소에서 유도된 질문 및 답변이 포함되어 있으며, RAG에 사용되는 기존 OCR 솔루션에 대한 도전적인 요소가 있습니다. OCR이 RAG 시스템에 미치는 영향을 더 잘 이해하기 위해 우리는 두 가지 주요 유형의 OCR 잡음을 식별하고 있습니다: 의미 잡음과 서식 잡음, 그리고 각 OCR 잡음의 다양한 정도의 구조화된 데이터 집합을 생성하기 위해 변형을 적용합니다. OHRBench를 사용하여, 우리는 현재 OCR 솔루션의 포괄적인 평가를 수행하고, RAG 시스템을 위한 고품질 지식 베이스를 구축하는 데 유능하지 않음을 밝힙니다. 그런 다음 이 두 가지 잡음 유형의 영향을 체계적으로 평가하고 RAG 시스템의 취약성을 시연합니다. 더 나아가, 우리는 RAG 시스템에서 OCR 없이 Vision-Language 모델 (VLM)을 활용하는 잠재력에 대해 논의합니다. 코드: https://github.com/opendatalab/OHR-Bench
대형 언어 모델 (LLM)이 도입된 이후에는 자연어 생성 (NLG) 작업의 성능이 크게 향상되었습니다. 이에는 텍스트 요약 및 기계 번역이 포함됩니다. 그러나 LLM은 여전히 사실 정보에 근거하지 않는 내용, 즉 환각을 포함한 결과물을 생성합니다. 따라서 LLM의 사실성을 평가하는 방법을 개발하는 것이 절박해졌습니다. 실제로 최근에는 사실성 평가를 위한 자원이 등장했습니다. 그러나 이러한 자원은 한 가지 이상의 제한을 가지고 있습니다. (i) 특정 작업이나 도메인에 맞춰져 있거나, (ii) 크기가 제한되어 새로운 사실성 평가자를 훈련시키는 것을 방해하거나, (iii) 주장 검증과 같은 더 간단한 확인 작업을 위해 설계되었습니다. 이러한 문제를 해결하기 위해 우리는 최고의 지식을 바탕으로 최대 규모의 종단간 사실성 평가자를 훈련하기 위한 자원인 LLM-Oasis를 소개합니다. LLM-Oasis는 위키피디아에서 주장을 추출하고, 이러한 주장 중 일부를 위조하며, 사실적인 텍스트와 비사실적인 텍스트의 쌍을 생성하여 구축되었습니다. 그런 다음 인간 주석자들을 의지하여 데이터셋의 품질을 검증하고 사실성 평가 시스템의 벤치마킹을 위한 골드 표준 테스트 세트를 작성합니다. 우리의 실험 결과는 LLM-Oasis가 최첨단 LLM에 대한 중요한 도전 과제를 제시하며, 제안된 종단간 사실성 평가 작업에서 GPT-4o가 최대 60%의 정확도를 달성하는 것을 보여주며, 이는 이 분야에서의 미래 연구를 촉진할 잠재력을 강조합니다.
동작 제어는 표현력 있고 매력적인 비디오 콘텐츠를 생성하는 데 중요하지만 대부분의 기존 비디오 생성 모델은 주로 텍스트 프롬프트를 사용하여 제어를 하며, 동적 행동과 시간적 조합의 미묘한 면을 포착하는 데 어려움을 겪습니다. 이에 우리는 시공간적으로 희소하거나 밀도 있는 동작 궤적에 의존하는 비디오 생성 모델을 훈련시킵니다. 이 유연한 표현은 이전의 동작 조건 작업과 대조적으로 임의의 수의 궤적, 객체별 또는 전역 장면 동작, 그리고 시간적으로 희소한 동작을 인코딩할 수 있습니다. 이 유연성으로 인해 우리는 이러한 조건을 동작 프롬프트라고 지칭합니다. 사용자는 희소한 궤적을 직접 지정할 수 있지만, 고수준 사용자 요청을 자세하고 반밀도의 동작 프롬프트로 변환하는 방법도 소개하며, 이 과정을 동작 프롬프트 확장이라고 합니다. 우리의 방법의 다양한 응용을 통해 카메라 및 객체 동작 제어, 이미지와 "상호 작용", 동작 전송, 이미지 편집 등을 포함한 다양한 응용을 보여줍니다. 결과는 현실적인 물리학과 같은 신생 행동을 보여주며, 동작 프롬프트의 비디오 모델 조사 및 미래 생성 세계 모델과 상호 작용의 잠재력을 시사합니다. 마지막으로, 우리는 정량적으로 평가하고, 인간 연구를 실시하며, 강력한 성능을 시연합니다. 비디오 결과는 저희 웹페이지에서 확인할 수 있습니다: https://motion-prompting.github.io/
저희는 OmniCreator를 소개합니다. 이는 텍스트 프롬프트에 의해 통합된(이미지+비디오) 생성 및 편집을 한 곳에서 수행할 수 있는 혁신적인 프레임워크입니다. OmniCreator는 자가 감독 방식으로 생성 및 범용 편집 기능을 습득하며, 원본 텍스트-비디오 쌍을 조건으로 삼으면서 같은 비디오를 잡음 제거 대상으로 활용하여 비디오와 텍스트 간 의미적 대응을 학습합니다. 추론 중에 텍스트 프롬프트와 비디오가 제시되면, OmniCreator는 양쪽에 충실한 대상을 생성할 수 있어 기존의 일부 편집 유형에 주로 초점을 맞추거나 추가적인 제어(예: 구조적 조건, 주의 기능 또는 DDIM 반전)에 의존하는 기존 편집 작업과는 달리 제약이 없는 범용 편집 효과를 달성합니다. 반면에 텍스트 프롬프트만 제시되면, OmniCreator는 생성적이 되어 학습한 의미적 대응으로 고품질 비디오를 생성합니다. 더 중요한 것은 동일한 능력이 이미지에도 그대로 적용되어 OmniCreator를 진정한 통합 프레임워크로 만든다는 점입니다. 또한, 기존의 생성적 비디오 편집 벤치마크의 부재로 인해, 우리는 종합적으로 생성적 비디오 편집 모델의 성능을 평가하기 위해 설계된 OmniBench-99 데이터셋을 소개합니다. 광범위한 실험 결과, OmniCreator가 모든 다른 모델들보다 상당한 우월성을 나타내는 것을 입증하였습니다.
3D Vision-Language Models (3D-VLMs)에 대한 연구가 점차 더 많은 관심을 받고 있으며, 이는 시각적 내비게이션과 신체적 질문 응답을 통해 3D 장면 내에서 구현된 AI를 개발하는 데 중요합니다. 특히 대규모 3D 장면에서 시각적 기능이 높은 밀도로 인해 작업 관련 시각적 정보를 정확하게 식별하는 것은 어려운 과제입니다. 기존 연구는 모든 객체를 분할하고 그들의 특징을 장면 표현으로 고려하려고 합니다. 그러나 이러한 작업에 중립적인 객체 특징은 많은 중복 정보와 작업 관련 영역에 대한 부족한 세부 정보를 포함하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 LSceneLLM을 제안합니다. 이는 LLM의 시각적 선호도를 활용하여 작업에 따라 자동으로 작업 관련 영역을 식별하고, 이어서 초점을 맞춘 영역에서 세부적인 세부 정보를 캡처하기 위한 플러그 앤 플레이 장면 확대 모듈을 사용합니다. 구체적으로, 밀도 토큰 선택기는 LLM의 주의 맵을 검사하여 명령 입력에 대한 시각적 선호도를 식별합니다. 그런 다음 초점을 맞춘 영역의 세부 정보를 확대합니다. 적응형 자기 주의 모듈을 활용하여 굵은 세부 정보와 선택된 세부 세부 정보를 융합합니다. 3D-VLMs의 대규모 장면 이해 능력을 종합적으로 평가하기 위해, 우리는 크로스-룸 이해 벤치마크인 XR-Scene을 소개합니다. 이는 XR-QA, XR-EmbodiedPlanning 및 XR-SceneCaption을 포함한 일련의 대규모 장면 이해 작업을 포함합니다. 실험 결과, 우리의 방법이 대규모 장면 이해 및 기존 장면 이해 벤치마크 모두에서 기존 방법을 능가함을 보여줍니다. 기존의 3D-VLMs에 우리의 장면 확대 모듈을 적용하는 것도 상당한 향상을 가져옵니다.
비전 토크나이저는 확장성과 조밀성으로 많은 관심을 받아왔습니다. 이전 연구들은 구식 GAN 기반 하이퍼파라미터, 편향된 비교, 그리고 스케일링 행위의 포괄적인 분석 부재에 의존했습니다. 이러한 문제에 대처하기 위해, 우리는 구성된 구 형식 양자화(Grouped Spherical Quantization, GSQ)를 소개합니다. 이 방법은 구 코드북 초기화와 룩업 정규화를 특징으로 하여 코드북 잠재를 구 표면으로 제한합니다. 이미지 토크나이저 교육 전략에 대한 우리의 경험적 분석은 GSQ-GAN이 최신 방법들보다 더 적은 교육 반복으로 우수한 재구성 품질을 달성하며, 스케일링 연구를 위한 견고한 기반을 제공합니다. 이를 바탕으로, 우리는 GSQ의 스케일링 행위를 체계적으로 조사합니다. 특히 잠재 차원, 코드북 크기, 압축 비율 및 모델 성능에 미치는 영향을 분석합니다. 우리의 연구 결과는 고낮은 공간 압축 수준에서 구별되는 행위를 드러내며, 고차원 잠재 공간 표현의 어려움을 강조합니다. 우리는 GSQ가 고차원 잠재를 조밀하고 저차원 공간으로 재구성할 수 있어서 품질을 개선하면서 효율적인 스케일링을 가능하게 할 수 있다는 것을 보여줍니다. 결과적으로, GSQ-GAN은 0.50의 재구성 FID(rFID)로 16배 다운샘플링을 달성합니다.
참조 이미지 분할(RIS)은 고급 시각-언어 작업으로, 자유 형식 텍스트 설명에 따라 이미지 내 객체를 식별하고 분할하는 것을 포함합니다. 이전 연구는 시각과 언어 특징을 조정하는 데 초점을 맞추었지만, 데이터 증강과 같은 훈련 기술을 탐구하는 것은 아직 충분히 연구되지 않았습니다. 본 연구에서는 RIS를 위한 효과적인 데이터 증강을 탐구하고 Masked Referring Image Segmentation (MaskRIS)이라는 새로운 훈련 프레임워크를 제안합니다. 우리는 기존 이미지 증강이 RIS에 부족함을 발견하고, 간단한 무작위 마스킹이 RIS의 성능을 크게 향상시킨다는 것을 관찰했습니다. MaskRIS는 이미지와 텍스트 마스킹을 모두 사용하며, 왜곡 인식적 맥락 학습(DCL)을 통해 마스킹 전략의 혜택을 완전히 활용합니다. 이 접근 방식은 모델이 가려짐, 불완전 정보 및 다양한 언어적 복잡성에 대한 견고성을 향상시킬 수 있어, 상당한 성능 향상을 이끌어냅니다. 실험 결과, MaskRIS는 다양한 RIS 모델에 쉽게 적용될 수 있으며, 완전 지도 및 약 지도 설정 모두에서 기존 방법을 능가합니다. 마지막으로, MaskRIS는 RefCOCO, RefCOCO+, RefCOCOg 데이터셋에서 새로운 최고 성능을 달성합니다. 코드는 https://github.com/naver-ai/maskris에서 사용할 수 있습니다.
AI 기술은 연구에서 생산으로 신속히 진화하고 있습니다. 텍스트, 이미지 및 비디오를 생성하는 Foundation Models (FMs)의 인기로, AI 기반 시스템은 복잡성을 더하고 있습니다. 전통적인 AI 기반 소프트웨어와 비교했을 때, FMs 또는 GenAI 기반 시스템을 사용하는 시스템은 규모와 다양성으로 인해 설계하기 어려워집니다. 이로 인해 소프트웨어 공학에서의 디자인 패턴으로 알려진 최상의 실천 방법을 문서화하는 것이 필요합니다. 우리의 첫 번째 기여는 두 가지 기술, 작업 분해 및 검색 증강 생성 (RAG)을 GenAI 기반 시스템의 디자인 패턴으로 공식화하는 것입니다. 이러한 기술의 소프트웨어 품질 속성에 대한 트레이드오프를 논의하고 대안적 접근 방법에 대해 논평합니다. 우리는 AI 실무자들에게 이러한 기술을 과학적인 관점뿐만 아니라 유연성, 유지보수성, 안전성 및 보안과 같은 원하는 공학 특성의 관점에서 고려할 것을 권장합니다. 두 번째로, 우리는 작업 분해와 RAG를 산업 경험을 통해 설명하며 기업 사용자를 위한 복잡한 현실 세계 GenAI 응용 프로그램인 Workflow Generation을 구축하는 데 적용한 경험을 기술합니다. 워크플로우를 생성하는 작업은 시스템 환경의 데이터를 사용하여 사용자 요구 사항을 입력으로 받아들여 특정 계획을 생성하는 것을 의미합니다. 이 두 가지 패턴이 전체 AI 개발 주기에 영향을 미치므로, 데이터셋 생성, 모델 훈련, 모델 평가 및 배포 단계에 어떻게 영향을 미쳤는지 설명합니다.
AIPC 개념이 인기를 얻고 있으며 더 많은 하이브리드 CPU가 클라이언트 장치에서 AI 모델을 실행할 것입니다. 그러나 현재의 AI 추론 프레임워크는 하이브리드 CPU의 불균형한 하드웨어 성능을 간과하여 추론 성능이 낮아지는 문제가 있습니다. 이 문제를 해결하기 위해, 우리는 하이브리드 CPU에 대한 동적 병렬 방법을 소개했으며, 이는 병렬 작업이 시작되기 전에 하이브리드 CPU의 각 코어에 대한 작업 부하를 균형있게 조절하여 LLM 추론 성능을 크게 향상시켰습니다. 이 방법을 통해 Neural Speed는 두 개의 하이브리드 Intel CPU에서 평균 90% 이상의 메모리 대역폭을 달성하였습니다.
비디오 하이라이트 탐지 및 순간 검색 (HD/MR)은 비디오 분석에서 중요합니다. 최근의 공동 예측 트랜스포머 모델은 종종 교차 작업 동적 및 비디오-텍스트 정렬 및 정제를 간과합니다. 또한 대부분의 모델은 일방향 주의 메커니즘을 사용하여 통합된 표현과 비디오 및 텍스트 모드 간의 상호 의존성을 캡처하는 성능이 부족합니다. 비록 대규모 언어 및 비전-언어 모델 (LLM/LVLMs)이 다양한 영역에서 주목을 받았지만, 이 분야에서의 적용은 비교적 미개척 상태입니다. 본 연구에서는 이러한 한계를 해결하기 위해 Convolutional Projection 및 Feature Refinement 모듈을 사용한 정렬 손실을 통한 비디오-텍스트 특징 정렬 개선, 강력하게 결합된 쿼리 인식 클립 표현을 위한 양방향 교차 모달 퓨전 네트워크, 그리고 상호 관련성을 통해 양쪽 작업을 강화하는 단방향 공동 작업 피드백 메커니즘을 제안하는 VideoLights를 제안합니다. 또한 적응적 오류 처벌 및 개선된 학습을 위한 어려운 양성/음성 손실을 도입하고, BLIP-2와 같은 LVLMs를 활용하여 향상된 다중 모달 특징 통합 및 LVLMs에서 생성된 합성 데이터를 사용한 지능적인 사전 훈련을 소개합니다. QVHighlights, TVSum 및 Charades-STA 벤치마크에서의 포괄적인 실험은 최첨단 성능을 보여줍니다. 코드 및 모델은 https://github.com/dpaul06/VideoLights 에서 확인할 수 있습니다.