تا به امروز نرم افزار های تجاری و آموزشی فراوانی برای داده کاوی در حوزه های مختلف داده ها به دنیای علم و فناوری عرضه شدهاند. هریک از آنها با توجه به نوع اصلی داده هایی که مورد کاوش قرار میدهند، روی الگوریتمهای خاصی متمرکز شدهاند. مقایسه دقیق و علمی این ابزارها باید از جنبه های متفاوت و متعددی مانند تنوع انواع و فرمت داده های ورودی، حجم ممکن برای پردازش داده ها، الگوریتمها پیاده سازی شده، روشهای ارزیابی نتایج، .روشهای مصور سازی ، روشهای پیش پردازش داده ها، واسطهای کاربر پسند ، پلت فرم های سازگار برای اجرا، قیمت و در دسترس بودن نرم افزار صورت گیرد. از آن میان، نرم افزار Weka با داشتن امکانات بسیار گسترده، امکان مقایسه خروجی روشهای مختلف با هم، راهنمای خوب، واسط گرافیگی کارآ، سازگاری با سایر برنامههای ویندوزی، و از همه مهمتر وجود کتابی بسیار جامع و مرتبط با آن [ Data Mining, witten et Al. 2005 ] ، معرفی میشود.
میزکار Weka ، مجموعهای از الگوریتمهای روز یادگیری ماشینی و ابزارهای پیش پردازش دادهها میباشد. این نرمافزار به گونهای طراحی شده است که میتوان به سرعت، روشهای موجود را به صورت انعطافپذیری روی مجموعههای جدید داده، آزمایش نمود. این نرمافزار، پشتیبانیهای ارزشمندی را برای کل فرآیند داده کاوی های تجربی فراهم میکند. این پشتیبانیها، آماده سازی دادههای ورودی، ارزیابی آماری چارچوبهای یادگیری و نمایش گرافیکی دادههای ورودی و نتایج یادگیری را در بر میگیرند. همچنین، هماهنگ با دامنه وسیع الگوریتمهای یادگیری، این نرمافزار شامل ابزارهای متنوع پیش پردازش دادههاست. این جعبه ابزار متنوع و جامع، از طریق یک واسط متداول در دسترس است، به نحوی که کاربر میتواند روشهای متفاوت را در آن با یکدیگر مقایسه کند و روشهایی را که برای مسایل مدنظر مناسبتر هستند، تشخیص دهد.
نرمافزار Weka
در
دانشگاه Waikato واقع در نیوزلند توسعه یافته است
و اسم آن از عبارت "Waikato Environment for knowledge Analysis" استخراج
گشته است. همچنین Weka ، نام پرندهای با طبیعت جستجوگر است که
پرواز نمیکند و در نیوزلند، یافت میشود. این سیستم به زبان جاوا نوشته شده و بر
اساس لیسانس عمومی و فراگیر GNU انتشار یافته است.
Weka تقریباً روی هر پلت فرمی اجرا میشود و نیز تحت
سیستم عاملهای لینوکس، ویندوز، و مکینتاش، و حتی روی یک منشی دیجیتالی شخصی ،
آزمایش شده است.
این
نرمافزار، یک واسط همگون برای بسیاری از الگوریتمهای یادگیری متفاوت، فراهم
کرده است که از طریق آن روشهای پیش پردازش، پس از پردازش و ارزیابی نتایج طرح
های یادگیری روی همه مجموعه های داده موجود، قابل اعمال است.
نرم افزار Weka ، پیاده سازی الگوریتمهای مختلف یادگیری را فراهم میکند و به آسانی میتوان آنها را به مجموعه های داده خود اعمال کرد.
همچنین، این نرمافزار شامل مجموعه متنوعی از ابزارهای تبدیل مجموعه های دادهها، همانند الگوریتمهای گسسته سازی میباشد. در این محیط میتوان یک مجموعه داده را پیش پردازش کرد، آن را به یک طرح یادگیری وارد نمود، و دستهبندی حاصله و کارآییاش را مورد تحلیل قرار داد. (همه این کارها، بدون نیاز به نوشتن هیچ قطعه برنامهای میسر است( .
این محیط، شامل روشهایی برای همه مسایل استاندارد داده کاوی مانند رگرسیون، ردهبندی، خوشهبندی، کاوش قواعد انجمنی و انتخاب ویژگی میباشد. با در نظر گرفتن اینکه، دادهها بخش مکمل کار هستند، بسیاری از ابزارهای پیش پردازش دادهها و مصورسازی آنها فراهم گشته است. همه الگوریتمها، ورودیهای خود را به صورت یک جدول رابطهای به فرمت ARFF دریافت میکنند. این فرمت دادهها، میتواند از یک فایل خوانده شده یا به وسیله یک درخواست از پایگاه دادهای تولید گردد.
یکی از راههای به کارگیری Weka
، اعمال یک روش یادگیری به یک مجموعه داده و
تحلیل خروجی آن برای شناخت چیزهای بیشتری راجع به آن اطلاعات میباشد. راه دیگر
استفاده از مدل یادگیری شده برای تولید پیشبینیهایی در مورد نمونههای جدید
است. سومین راه، اعمال یادگیرندههای مختلف و مقایسه کارآیی آنها به منظور انتخاب
یکی از آنها برای تخمین میباشد. روشهای
یادگیری Classifier نامیده
میشوند و در واسط تعاملی Weka ، میتوان هر یک از آنها را از منو انتخاب نمود. بسیاری از classifier ها پارامترهای
قابل تنظیم دارند که میتوان از طریق صفحه ویژگیها یا
object editor به آنها دسترسی داشت. یک واحد
ارزیابی مشترک، برای اندازهگیری کارآیی همه
classifier به کار میرود.
پیاده سازیهای چارچوبهای یادگیری واقعی، منابع بسیار ارزشمندی هستند که Weka فراهم میکند. ابزارهایی که برای پیش پردازش دادهها استفاده میشوند. filter نامیده میشوند. همانند classifier ها، میتوان filter ها را از منوی مربوطه انتخاب کرده و آنها را با نیازمندیهای خود، سازگار نمود. در ادامه، به روش به کارگیری فیلترها اشاره میشود.
علاوه بر موارد فوق، Weka شامل پیاده سازی الگوریتمهایی برای یادگیری قواعد انجمنی، خوشهبندی دادهها در جایی که هیچ دستهای تعریف نشده است، و انتخاب ویژگیهای مرتبط در دادهها میشود