منبع پایان نامه ارشد درمورد خوشه بندی، الگوریتم ژنتیک، بانکداری

م آنچنان که باید مورد استفاده قرار نگرفته است و قابلیت گسترش بسیار زیادی برای آن وجود دارد.
1-2-پیشینه تحقیق
ما در جهانی پر از داده زندگی میکنیم و هر روز با حجم وسیعی از ذخیره یا نمایش اطلاعات روبهرو هستیم. یکی از روشهای حیاتی کنترل و مدیریت این دادهها، خوشهبندی میباشـد. در این روش دادههایی که دارای خواص مشابه میباشند، درون یک دسته یا یک خوشه قرار میگیرند. اولین بار ایدهی خوشهبندی در دههی 1935 ارائه شد و امروزه با پیشرفتها و جهشهای عظیمی که در آن پدید آمده مورد توجه بسیاری از محققــان قرار گرفته است. لذا در کاربردها و جنبههای مختلفی حضور یافته و روشهای مختلفی برای بهرهبرداری از آن مطرح گردیده است [1]. از یک نظر، الگوریــتمهای خوشه بندی می تواند در دو دسته کلی تقسیمبندی شوند: خوشه بندی سخت و خوشه بندی فازی. در خوشهبندی سخت یک داده به یک و فقط یک خوشه تعلق میگیرد، درحالیکه در خوشهبندی فازی یک داده ممکن است بطور همزمان به دو خوشه یا بیشتر تعلق داشته باشد [2]، [3]، [4]. الگوریتم Fuzzy c-means یکی از روشهای معروف خوشهبندی فازی محسوب میگردد که به سادگی قابل پیادهسازی میباشد. متأسفانه نسخهی اصل آن دارای محدودیتهایی از جمله وابستگی به مقادیر اولیه و همگرایی به پاسخ بهینه محلی میباشد [5]، [6]. در الگوریتم ژنتیک این محدودیتها از بین رفته است. در عین حال با ترکیب این دو الگوریتم نتایج قابل توجهی حاصل شده است که سرعت همگرایی آن نیز به مراتب از نمونههای قبل بیشتر گردیده است [7]. Kao و همکارانش با ترکیب دو الگوریتم ژنتیک و PSO روشی را ابداع نمود که در آن از عملگر جهش و تقاطع برای ژنتیک بهره گرفته است. این روش توانست مشکلات مختلف توابع پیوسته را رفع نماید. همچنین در یافتن جواب بهینهی سراسری و نسبت همگرایی تغییرات چشمگیری حاصل شده است [8]. با استفاده از ترکیب الگوریتم ژنتیک و روش فازی، روشی توسط عسگریان در سال 1386 مطرح شد. در این روش مشکل وابستگی به تعداد اولیه خوشهها و مکان اولیه مراکز آنها مرتفع و با عدم توانایی خوشهبندی دادههایی که فاصلهی آنها از مراکز چند خوشه به یک اندازه میباشد؛ مقابله گردید. از مزایای دیگر این ترکیب کاهش پیچیدگی محاسبات میباشد [9]. یکی دیگر از روشهای ترکیبی که در مسائل دادهکاوی کاربرد دارد استفاده از ترکیب Fuzzy c-means و PSO میباشد که توانست مشکل همگرایی به بهینهی محلی و سرعت همگرایی را بهبود بخشد [10] ،[11]. از دیگر روشهای ترکیبی جدید ترکیب الگوریتمFCM و الگوریتم مِمتیک فازی است. در راستای بهبود عملکرد خوشهبندی، نتایج حاصل از این تکنیک نشان میدهد که جوابهای بهتری داشته و پایداری آن نیز بالاتر میباشد [12]. ترکیب FCM و SA نمونهای دیگر از روشهای ترکیبی است که در تشخیص سرطان استفاده میشود [13]،[14]،[15]،[16]. در راستای تلاشهای ذکر شده، در این پایاننامه سعی بر آن است تا با استفاده از ترکیب الگوریتمFCM و الگوریتم خفاش از مزایای دو الگوریتم در حل مسائل خوشهبندی بهره گرفته شود.
1-3-هدف تحقیق
هدف در این تحقیق این است که با بررسی الگوریتمهای موجود در زمینه خوشهبندی، الگوریتمی ارائه گردد که تا حد قابل قبولی بتواند محدودیتهای موجود را پوشش دهد. برخی از محدودیتهای موجود را میتوان به شرح ذیل برشمرد:
کارایی برای پایگاه دادهها با حجم بالا
کشف خوشهها با اشکال مختلف
عدم حساسیت به ترتیب دادههای ورودی
قابلیت تفسیر و استفاده
1-4-اهمیت تحقیق
همزمان با افزایش سیستمهای پایگاه داده و ابزارهای متعدد برای ذخیرهی حجم بالای دادهها نیاز به روشهای خودکار برای کشف دانش از درون دادهها کاملاً احساس میشد. علاوه بر آن به دلیل هزینهی بالای نیروی انسانی و مادی جهت انجام عملیات روی حجم انبوه دادهها ارائه روشهایی با کمترین دخالت کاربر ضروری بود. استخراج اطلاعات مناسب از میان انبوه داده‏ها و تبدیل آنها به دانش مورد نیاز سازمانها – بهویژه در تصمیم‌گیری‏های سازمانی – نیازمند استفاده از روش‏های نوین در این حوزه بود. دادهکاوی8 یکی از این ابزارهاست که به کشف دانش از پایگاه دادهها کمک می‏کند. میتوان گفت دادهکاوی استخراج اطلاعـات معتبر، قابل فهم و قابل اعتماد از پایگاه دادههای بسیار بزرگ است که به کشـف الگوهای پنهان و روابط مطمئن بین دادهها و استفاده از آن در تصمیمگیری کمک مینماید. در حقیقت شناخت و دستوپنجه نرم کردن با دادهها یکی از اهداف مهم در دادهکاوی است.
این فرآیند از اواخر دهه 90 مطرح شد و از سال 1995 به صورت جدی وارد مباحث آماری گشت و در حال حاضر جزء مهمترین ابزار بهرهبرداری مؤثر از انبوه دادهها میباشد و اهمیت وجود آن هر روز افزایش مییابد. به عبارت دیگر دادهکاوی، علمی نسـبتاً جدید است که از انجام تحقیـقات در رشتههای آمار، یادگیری ماشین و علوم کامپیوتر مخصوصاً مدیـریت پایگاه دادهها شکل گرفته است.
داده کاوی در سه حوزه مستقل از علوم مورد استفاده قرار میگیرد:
آمار کلاسیک و الگوهای آماری
هوش مصنوعی
یادگیری خودکار و شبکه های عصبی
برای انجام دادهکاوی از ابزار مختلف نظیر تفکیک کردن، دستهبندی، درخت تصمیمگیری، تحلیل قواعد وابستگی، تحلیل خوشهها و الگوریتمهای عمومی استفاده میشود. در ادامه چند نمونه از کاربردهای این فرایند ذکر میگردد که در صورت عدم حضور دادهکاوی، دستیابی به اهداف غیر ممکن میگردید.
با استفاده از داده کاوی میتوان کاربرد نمودارهای کنترلی را بهبود بخشید. فرض کنید 4 پارامتر در یک مشخصهی کیفیِ مرتبط با یک قطعهی تولید شده در یک کارخانه، تأثیرگذار باشند و هدف، بهبود کیفیت آن مشخصه باشد. با استفاده از اطلاعات موجود که از حجم بالایی برخوردار می باشد، در صورتیکه کیفیت مشخصهی مذکور از محدوده قابل قبول خارج گردد طبق اصول مرتبط با کنترل کیفیت آماری، لازم است علل مربوط به انحرافات که باعث خروج مشخصهی کیفی از محدودهی کنترلی شده است را شناسایی نموده، و پس از رفع آن، وضعیت دوباره بررسی گردد. عملاً زمان بسیار زیادی در این راه صرف خواهد شد. تکنیک دادهکاوی میتواند با بررسی اطلاعات موجود در مورد 4 پارامتر مذکور به جای استفاده از روشهای قبلی، با رسم نمودار میلهای پارامتری که بیشترین انحراف را نسبت به میانگین خود دارد مورد بررسی قرار داده و با کنترل آن عملاً دامنه را محدود نماید.
کاربرد اصلی دادهکاوی آن است که به جای بررسی حجم بالایی از پارامترهای تأثیر گذار، با خوشه بندی اطلاعات بر اساس اهمیت آنها و تأثیرگذاری آنها بر پارامتر کیفیِ موردنظر، بتوان دامنهی عمل را محدود نموده و در کمترین زمان و با حداقل هزینه به هدف رسید.
در موارد پزشکی ارائهی روشهای جدید جهت پیشبینی ابتلای شخص به بیماریهای واگیردار خطرناک با استفاده از اطلاعات اولیهی موجود بسیار ضروری میباشد. پزشکان جهت تشخیص دقیق و مطمئن ابتلای یک شخص به بیماری سل به مدت زمان طولانی احتیاج دارند. اما در این مدت ممکن است شخص مبتلا بیماری ر ا به 10 تا 15 نفر منتقل نماید. بنابراین با بهکارگیری روشهای دادهکاوی میتوان بر اساس اطلاعات به دست آمده از آزمایشات، در ساعات اولیهی مراجعه بیمار احتمال ابتلای وی را تشخیص دهیم. همچنین، از این تکنیکها، در بهدست آوردن روابط مفید جهت جلوگیری از مرگ و میر افراد مبتلا به بیماریهای قلب و عروق، میتوان بهره گرفت [17].
در مسائل اقتصادی نیز کاربردهای دادهکاوی به وضوح قابل رؤیت میباشد. با توجه به روند تغییرات در صنعت بانکداری، (رواج بانکداری الکترونیکی) حجم اطلاعات در حال رشد است. با بهرهگیری از این اطلاعات، میتوان عملکردهـایی را اتخاذ نمود که در این راستا رضایتمندی دوجانبه از طرف مشتری و بانک بهدست آید. مواردی مانند بازاریابی، حفظ مشتری، تشخیص تقلب، مدیریت ریسک و … را میتوان برشمرد. به طور نمونه، با توجه به اطلاعات موجود و استفاده از تکنیکهای خوشهبندی میتوان مشتریان خوشحسابتر و سودآورتر را برگزید و با اعطای تسهیلات، آنها را مورد تشویق قرار داد. همچنین مدیران بانک میتوانند احتمال این را که کدام مشتری دارای ریسک بیشتر برای عدم پرداخت وام و بدهی میباشد تشخیص دهند [18].
دادهکاوی الگوهای حاوی اطلاعات را در دادههای موجود جستجو میکند. این الگوها و الگوریتمها میتوانند توصیفی9 باشند؛ یعنی دادهها را توصیف کنند یا جنبهی پیشبینی10 داشته باشند. دادهکاوی توصیفی به دنبال یافتن اگرها در فعالیتها و اقدامات گذشته است و دادهکاوی پیش بینانه با نگاه به سابقه، رفتار آینده را پیش بینی میکند.
خوشهبندی دادهها یکی از تکنیکهای دادهکاوی است که در گروه اول (توصیف کننده) قرار میگیرد و برای استخراج مدل از دادهها بهکار گرفته میشود. الگوریتم Fuzzy c-means یکی از روشهای خوشهبندی اطلاعات میباشد که از آن میتوان بـهره گرفت. با توجه به اهمیــت دادهکاوی در دنیای امروز، ارائهی روشهای جدید که بهوسیلهی آن دادهها مورد استفاده مفید قرار گیرد ضروری است. دراین تحقیق با ترکیب الگوریتم Fuzzy c-means و الگوریتم خفاش به این مهم دست خواهیم یافت.
1-5-گفتارهای پایان نامه
این پایان نامه بصورت زیر تنظیم شده است.
در فصل دوم، روشهای موجود جهت خوشهبندی معرفی خواهد گردید. محاسن و معایب آن بررسی میگردد و در نهایت الگوریتم که در این رساله از آن بهره خواهیم گرفت شرح داده خواهد شد.
در فصل سوم، با تکنیکهای بهینهسازی آشنا شده و کلیهی روشهای تکاملی که در این رساله مورد مقایسه قرار گرفتهاند به طور اجمالی تشریح میگردد. در نهایت الگوریتم رقابت خفاش که اساس این پایاننامه میباشد به تفصیل توضیح داده خواهد شد.
در فصل چهارم، الگوریتم پیشنهادی که مبتنی بر ترکیب الگوریتم Fuzzy c-means و خفاش میباشد، توصیف میگردد.
در فصل پنجم، نتیجهگیری و پیشنهادات برای کارهای آینده آورده خواهد شد.
فصل دوم: خوشهبندی بر مبنای الگوریتم
Fuzzy c-means
2-1- مقدمه
خوشه به مجموعهای از دادهها گفته میشود که از زاویهی خاصی به هم شباهت دارند. به دسته بندی طبیعی دادههای نامتجانس به تعدادی خوشه بر اساس خصوصیات مشابه نیز خوشهبندی میگویند. اغلب از خوشهبندی به عنوان اولین گام دادهکاوی یاد میشود که قبل از سایر فرآیندها بر روی رکوردها اعمال میشود تا گروهی از رکوردهای مرتبط به هم به عنوان نقطه آغاز تحلیلها شناسایی شوند. هدف از خوشه بندی این است که دادههای موجود را به چندین گروه تقسیم کنند و در این تقسیمبندی دادههای گروههای مختلف باید حداکثر تفاوت ممکن را با هم داشته باشند و دادههای موجود در یک گروه باید بسیار به هم شبیه باشند.
در این فصل، بعد از مقایسه روش خوشهبنـدی با روش طبقهبندی، روشهای مختلف خوشهبندی معرفی میگردد و در آخر به توضیح در مورد الگوریتم Fuzzy c-means که این تحقیق بر پایه آن بنا شده است، خواهیم پرداخت.
2-2- خوشهبندی اطلاعات
در حالت کلی یادگیری را میتوان به دوگروه اصلی تقسیم کرد: یادگیری با نظارت و یادگیری بدون نظارت. در یادگیری با نظارت از ابتدا دستهها مشخص هستند و هر یک از دادههای آموزشی به دستهای خاص نسبت دادهشدهاست. اصطلاحاٌ گفته میشود که ناظری وجود دارد که در هنکام آموزش اطلاعاتی علاوه بر دادههای آموزش در اختیار یادگیرنده قرار میدهد. ولی در یادگیری بدون نظارت هیچ اطلاعاتی بهجز دادههای آموزشی در اختیار یادگیرنده قرار ندارد و این

مطلب مرتبط :   منابع مقاله درموردوجوه نقد، دانشگاهها، نرخ بهره

دیدگاهتان را بنویسید