الگوریتم پس انتشار خطا و ماشین بردار پشتیبان

دانلود پایان نامه

3-2-4-1 پیاده سازی الگوریتم


در این روش با توجه به اینکه هدف جداسازی ناحیه دهان از ناحیه غیر دهان میباشد تعداد خوشهها برابر با 2 و مقادیر اولیهای برای مرکز این دو خوشه در نظر گرفته میشود. روند ناحیهبندی بدین صورت انجام گرفته که از پیکسل (1و1) تصویر شروع به بررسی شده و فاصله هر پیکسل تا دو مرکز انتخاب شده محاسبه میشود. اگر فضای رنگ انتخابی سطح خاکستری باشد داده به مرکزی تعلق دارد که فاصله سطح خاکستری آن پیکسل تا سطح خاکستری مرکز نسبت به سطح خاکستری مرکز دیگر، کمتر باشد. این روند برای تمامی پیکسلهای تصویر انجام میگیرد و سپس با متوسطگیری روی سطح خاکستری پیکسلهای تخصیص یافته روی هر خوشه، مراکز جدید دو خوشه محاسبه میگردد و روند فوق آنقدر تکرار شده تا شرایط پایانی کا- مینز برقرار شود.
3-2-5 شدت روشنایی و باینری کردن
یکی از سادهترین روشها برای جداسازی لب از سایر قسمتها استفاده از آستانهای مناسب است که با این روش میتوان به تصاویری باینری شده دست یافت. در این صورت با تعیین مقدار آستانه مشخص میتوان مقدار پیکسلهایی که شدت روشنایی آنها از مقدار آستانه بیشتر است را برابر یک و آنهایی که شدت روشنایی آن ها از این آستانه کمتر است را برابر صفر قرار دهیم. البته باید توجه داشت که این روش به طور کامل قادر به جداسازی لب نخواهد بود.
3-2-6 روشهای ترکیبی
یکی دیگر از کارهایی که برای جداسازی لب از سایر قسمتهای صورت میتوان انجام داد استفاده از ادغام روشهای بیان شده در قسمتهای قبل است. در [27] روشی ترکیبی برای جداسازی ناحیه لب ارئه شده است. در این تحقیق از سه روش الگوریتم حذف قرمز و کا- مینز و روش باینری کردن استفاده شده و بعد برای ترکیب نتایج حاصل بین نواحی تشخیص داده شده توسط این الگوریتمها دو به دو اجتماع گرفته شده و سپس نتایج حاصل از این عمل برچسبگذاری شده و در نهایت با مقایسه مساحتها خروجی تعیین میشود.
شکل 3-2 الگوریتم جداسازی ناحیه لب
برای شناسایی دیداری از ویژگیهایی همچون ارتفاع و پهنای دهان و زاویه گشودگی افقی و عمودی دهان استفاده شده است. عملکرد هریک از این ویژگیها به صورت مستقل و ترکیبی بررسی شده و مشخص شده که استفاده همزمان از مؤلفه زاویه گشودگی افقی دهان به همراه ارتفاع و پهنای دهان بهترین امکان جداسازی بین سیلابها را ایجاد کرده و بنابراین بعد از جداسازی سیلابها به تشخیص مصوت پرداخته شده است. شبکه عصبی دو لایه با 25 نرون میانی و 6 نرون خروجی متناظر با تعداد کلاسها به کار گرفته شده و برای آموزش از روش RPROP استفاده شده است. یک بار آموزش و تست فقط بر روی زاویههای گشودگی افقی و بار دوم همزمان بر روی زاویههای گشودگی افقی و عمودی انجام شده و پس از انجام این مرحله و وزندهی خروجیها و تعیین ماکزیمم به عنوان خروجی، مصوت موجود در سیلاب تعیین گردیده است.
مطلب مرتبط :   قانون هدفمندی یارانه ها و هدفمندی یارانه ها

جستجو در سایت ما :


استفاده از هر یک از این روشها و استخراج ناحیه لب باعث کاهش ابعاد و پیچیدگیها و عملکرد بهتر ویژگیها و در نتیجه افزایش دقت شناسایی خواهد شد بنایراین بعد از استخراج این ناحیه بهتر است ویژگیهای مد نظر از آن استخراج شوند.
3-3 روشهای کلاسهبندی و شناسایی
برای شناسایی دیداری صحبت روشهای مختلفی همچون مدل مخفی مارکوف( HMM) ، شبکههای عصبی (NN) و نزدیکترین همسایگی (K-NN) ، آنالیز مجزاساز خطی (LDA) را میتوان نام برد. در [5] ترکیبی از مدل مخفی مارکوف و MLP استفاده شده است. [9] ، [10] ، [11] ، [12]،[18] ، [20] و [21] مدل مخفی مارکوف، [16] و [34] ,[27] شبکه عصبی و در [35] از ماشین بردار پشتیبان استفاده شده است.
3-3-1 شبکه عصبی
روشی است که بر پایه اتصال به هم پیوسته چندین واحدپردازشی ساخته میشود. از تعدادی نرون تشکیل میشود که ورودی را به خروجی ربط میدهند. از روشهایی است که برای تشخیص دیداری صحبت به فراوانی به کار گرفته شده است در [27] از شبکه عصبی MLP با توابع انتقال تانژانت سیگموید در لایه پنهان و خروجی به استفاده شده است. این شبکه در دو مرحله، یک بار برای آموزش و تست فقط بر روی زاویههای گشودگی افقی و بار دیگر بر روی زاویههای گشودگی افقی و عمودی به کار گرفته شده است. در [34] نیز از شبکه عصبی MLP استفاده شده که در آن تابع فعالسازی ورودی و خروجی به صورت خطی و تابع فعالسازی لایه میانی سیگموید میباشد و خروجی به صورت Y=W2 *F(W1 *X + B1) + B2 میباشد و وزنهای شبکه طوری تغییر میکنند که مجموع مربع خطا مینیمم شود. در [36] شبکه چند لایه Feed Forward Back Propagation Error به کار گرفته شده است.
3-3-1-1 شبکههای پیشخور
شبکههای پیشخور، شبکههایی هستند که مسیر پاسخ آنها همواره رو به جلو پردازش میشود و به نرونهای لایههای قبل باز نمیگردد. در این نوع شبکهها به سیگنال ها اجازه میدهند تنها از مسیر یک طرفه عبور کنند یعنی از ورودی تا خروجی. بنابراین باز خوردی وجود ندارد یعنی که خروجی هر لایه تاثیری بر همان لایه ندارد.
3-3-1-2 الگوریتم پس انتشار خطا
عمدهترین کاربرد قانون یادگیری پس انتشار، در شبکههای عصبی پیشخور است که عموما شبکههای چند لایه پرسپترون هم نامیده میشوند. این الگوریتم بر قانون یادگیری اصلاح خطا مبتنی میباشد. این قانون از دو مسیر اصلی تشکیل شده است. مسیر اول یا مسیر رفت است که در این مسیر، بردار ورودی به شبکه اعمال و تاثیرش از طزیق لایه میانی به لایه خروجی انتشار مییابد. در این مسیر پارامترهای شبکه بدون تغییر در نظر گرفته میشوند. در مسیر دوم یا مسیر برگشت پارامترهای شبکه تغییر کرده و تنظیم میشوند. این تنظیم مطابق با قانون اصلاح خطا صورت میگیرد.
3-3-2 مدل مخفی مارکوف
در [37] از سیستم HMM از 33 مدل HMM برای شناسایی 33 کلمه تشکیل شده است. هر مدل HMM یک مدل 3 حالته چپ به راست با 2 مخلوط گوسی برای هر حالت میباشد. ابتدا مدل ها مقداردهی اولیه شده و سپس با نسخه جاسازی شده آموزشی از الگوریتم بام- ولش دوباره تخمین زده میشوند. در ادامه داده آموزشی همتراز شده برای مدل شدن با الگوریتم ویتربی برای محاسبه چگالی زمانی حالات مورد استفاده قرار گرفته است. برای شناسایی یک کلمه جدید ، ویژگیهای استخراج شده از آن، به عنوان ورودی به سیستم HMM اعمال و ماکزیمم احتمال مدل به عنوان خروجی شناسایی شده و کلمه متناظر به شکل متن نمایش داده شده است.
فصل چهارم : ویژگیهای استخراجی و پیادهسازی روش پیشنهادی و معرفی پایگاه داده
4-1 پایگاه داده
در این کار از پایگاه دادهای که در [27] به کار برده شده است استفاده نمودیم. که در آن از چند مونث و مذکر برای ادای تعدادی از کلمات فارسی استفاده شده است که هر گوینده دو بار یا بیشتر کلمات را ادا کرده است. تصویر چهره از قسمت پایین صورت گویندهها میباشد. از 5 زن و 1 مرد در این کار استفاده نمودیم که هر کدام کلمات تک سیلابی را 2 و یا 3 بار تکرار نمودند. تصاویر در اندازه 320*240 میباشند. این پایگاه داده شامل فایلهای صوتی نیز میباشد که با توجه به عدم نیاز به آنها مورد استفاده قرار نگرفتند. این مجموعه تمامی مصوتها را در بر میگیرد در زیر کلمات تک سیلابی ادا شده آورده شده است.
جدول4-1 کلمات تک سیلابی در بانک اطلاعاتی
أ
إ