تحقيق نموذج استخلاص ميزات الصوت باستخدام معاملات MFCC والشبكات العصبية LSTM لتحسين أداء أنظمة التعرف على الصوت

المؤلفون

محمود محمد طالب دراسات عليا (دكتوراه)، قسم الفيزياء، كلية العلوم، جامعة اللاذقية، اللاذقية، سوريا
علي درويشو أستاذ, قسم الفيزياء، كلية العلوم، جامعة اللاذقية، اللاذقية، سوريا
فادي متوج أستاذ مساعد،قسم ميكاترونيك, كلية الهندسة الميكانيكية والكهربائية، جامعة اللاذقية، اللاذقية، سوريا

الكلمات المفتاحية:

RNN-LSTM، MFCC، التعلم العميق.

الملخص

يمثل التعرف على الصوت أحد المسارات البحثية المتقدمة في مجال معالجة الإشارات، نظراً لما يوفره من إمكانات واسعة في تطبيقات التفاعل الذكي والأمن البيومتري والأنظمة المدمجة. تعتمد هذه الدراسة على إطار تقني يجمع بين استخلاص الميزات الطيفية باستخدام معاملات MFCC وبين نماذج التعلم العميق القائمة على الشبكات العصبية المتكررة المزودة بوحدات الذاكرة طويلة وقصيرة المدى LSTM. تبدأ المنهجية بتحويل الإشارة الصوتية إلى تمثيل طيفي مضغوط يعكس خصائصها البنيوية، حيث توفر معاملات MFCC وصفاً فعالاً لمحتوى الإشارة وذلك عبر مستويات ترددية متعددة، بينما تستفيد نماذج LSTM من الطبيعة الزمنية المتتابعة للإشارة لالتقاط العلاقات الديناميكية والأنماط المتغيرة عبر الزمن بدقة عالية.وقد أظهرت النتائج التجريبية أن دمج MFCC مع LSTM أدى إلى تحسن ملحوظ في أداء التعرف على الصوت، حيث حقق النموذج دقة بلغت 91.8% على مجموعة الاختبار، مع معدل خطأ مقداره 8.2%، وهو ما يمثل تفوقاً واضحاً على الأساليب التقليدية المعتمدة على النماذج الإحصائية. كما أثبت النموذج قدرته على التعميم والتعامل مع اختلافات المتحدثين والبيئات الصوتية، خصوصاً في السيناريوهات التي تتسم بتقلبات زمنية أو مستويات ضجيج مرتفعة.يقدم البحث إطار منهجي متكامل يجمع بين استخلاص ميزات طيفية فعّالة وبنية عميقة قادرة على نمذجة الاعتماديات الزمنية طويلة المدى، مما يعزز موثوقية أنظمة التعرف على الصوت في التطبيقات العملية. وتفتح النتائج المجال أمام تطوير نماذج أكثر تقدماً تعتمد على آليات الانتباه أو البنى الهجينة لتحسين الأداء في البيئات الصوتية المعقدة.