Derin öğrenme modellerinin ses tanımada uygulanması
2022/09/10
News Detail
Ses tanıma alanında derin öğrenme modellerinin uygulanması kapsamlı bir teknik çerçeve oluşturdu.Çoklu senaryo ses özelliği çıkarma ve son-son öğrenme yoluyla semantik anlayışAşağıdaki teknik uygulama yönleri ve tipik model mimarileri şunlardır:
1. Akustik Özellik Çekimi
Zaman-Sıklık Analizinin Optimizasyonu
- MFCC'leri kullanan geleneksel manuel özellik mühendisliğini değiştiren mel-spektrogramlardan yerel özellikleri (harmonik yapı ve formantlar gibi) otomatik olarak öğrenmek için CNN'leri kullanmak,Bu yaklaşım, UrbanSound8K veri kümesi üzerindeki gürültülü ortamlarda sınıflandırma doğruluğunu %27 arttırır..
- MobileNetV3 gibi hafif modeller, derinlik açısından ayrılabilir kıvrımları ve PSA dikkat modüllerini kullanarak, sadece 2.6M parametrelerle %100 en iyi 5 kuş sesi tanıma doğruluğunu elde eder.
Gelişmiş Zaman Dizisi Modelleme
- CRNN hibrit mimarisi (CNN + BiLS TM) aynı anda ses olaylarının spektral özelliklerini ve zamansal bağımlılıklarını yakalar ve F1 puanı 92'ye ulaşır.Cam kırılması gibi ani olayları tespit etmek için %3.
- Transformer, uzun ses dizilimlerini işlemek için kendi kendine dikkat mekanizması kullanır ve bebeklerin açlık ve ağrı için ağlamalarını sınıflandırmada %99'dan fazla doğruluk elde eder.
II. Özel Uygulama Senaryoları
| Uygulama Alanları | Teknik Çözümler | Performans Ölçümleri |
|---|---|---|
| Evcil hayvan sağlığı izleme | RNN tabanlı ses duygusu analiz sistemi, 10'dan fazla ses türünün sınıflandırılmasını destekler | |
| Akıllı Ev Güvenliği | CNN + CTC kullanarak Sonundan Sonuna Anormal Ses Algılama | Yanıt Gecikmesi <200ms |
| Tıbbi Yardım Tanısı | Patolojik öksürük tanıma için Transfer Öğrenme Ses Baskı Modeli (örneğin, Urbansound Mimarlığı) | AUC 0.98 |
III. En Yeni Teknolojik İlerlemeler
- Multimodal Füzyon: YOLOv8 görsel modelinin ve LSTM ses ağının ortak eğitimi aynı anda bebek hareketlerini ve ağlama sıklığını analiz ederek yanlış pozitifleri% 38 oranında azaltır.
- Hafif Uygulama: WT2605A gibi yongalar, DNN çıkarım motorlarını entegre ederek, ses baskı tanıma modülünün güç tüketimini 15mW'a düşürür.
(Not: Tablodaki referans rakamları tablonun dışında gösterilmiştir.)