5- نمایش مناسب داده‌ها برای خوشه‌بندی

خیلی وقت‌ها برای خوشه‌بندی داده‌های تجاری، به دنبال روش‌های پیچیده ریاضی هستیم. هر کدام از روش‌های خوشه‌بندی، ویژگی‌ها و محدودیت‌هایی دارند. منتهی گاهی حتی با نمایش ساده نموداری داده‌ها می‌توانیم، به هدف خودمان برسیم. پیچیده کردن راهکار به معنای مزایای بیشتر آن نیست. تصویرسازی از داده‌ها این ویژگی را دارد که همه اتفاقات خوشه‌بندی، در مقابل تصمیم‌گیران نمایش داده می‌شود. آنها می‌توانند اعمال نظر کنند و اشکالات احتمالی آن را مطرح کنند.

سری داده‌های زیر را در نظر بگیرید. فرض کنید که بخواهیم آنها را خوشه‌بندی کنیم. شاید شما هم مثل من آن را به دو یا سه خوشه تقسیم کنید. یک خوشه مربوط به داده تنهای سمت راست و یک یا دو خوشه هم مربوط به داده‌های سمت چپ.first step clustering

یکی از اولین نکاتی که در نمودار بالا به چشم می‌آید، وجود داده پرت در این سری است. نکته‌ای که شاید بدون تصویرسازی، ممکن بود به چشم نیاید. به عنوان یک تحلیل‌گر می‌توانید حدس بزنید که آن داده به صورت اشتباه ثبت شده و یا اینکه خبر از یک اتفاق غیرعادی می‌دهد. منطقی نیست که این نقطه، کل فرآیند خوشه‌بندی را تحت تأثیر قرار بدهد. بنابراین در گام اول، این نقطه را از کل سری حذف و مجددا خوشه‌بندی می‌کنیم. نمودار زیر، نمایش داده‌های اصلاح شده در مقیاس اولیه است.

second step clustering

به نظر من، خوشه‌بندی داده‌های نمودار بالا، باز هم کار آسانی نیست. تعداد مناسب خوشه چند تا است؟ به خصوص زمانی که قرار است به صورت شهودی خوشه‌بندی شود، کدام داده در کدام خوشه قرار بگیرد؟ طبعا استفاده از روش‌های استاندارد، این مشکل را حل می‌کند. ولی حتی نتایج این روش‌ها را اگر نتوان به صورت دلچسبی نمابش داد، مورد پذیرش و مبنای عمل مدیران قرار نمی‌گیرد.

برای خوشه‌بندی، دو کار انجام دادم. اول اینکه مقیاس نمودار را اصلاح کردم و به جای یک مربع ۳۵ در ۳۵، اندازه‌ها را اصلاح کردم. بعد هم دو خط میانگین عمودی و افقی رسم کردم که داده‌ها را به چهار قسمت تقسیم کرد. حالا از روش‌های استاندارد برای خوشه بندی و تحلیل داده ها استفاده کنید.

third step clustering

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *