ماذا يعني التنقيب عن البيانات:
Data Mining هي عباره عن تقنية تهدف إلى استنتاج المعرفة من كميات هائلة من البيانات، تعتمد على الخوارزميات الرياضية والتي تعتبر أساس التنقيب عن البيانات وهي مستمدة من العديد من العلوم مثل علم الإحصاء والرياضيات والمنطق وعلم التعلم، والذكاء الاصطناعي والنظم الخبيرة، وعلم التعرف على الأنماط ،وعلم الآلة. وغيرها من العلوم والتي تعتبر من العلوم الذكية وغير التقليدية.
ظهر التنقيب في البيانات (Data mining) في أواخر الثمانيات وأثبت وجوده كأحد الحلول الناجحة لتحليل كميات ضخمة من البيانات، وذلك بتحويلها من مجرد معلومات متراكمة وغير مفهومة (بيانات) إلى معلومات قيِّمة يمكن استغلالها و الاستفادة منها بعد ذلك.
وقد اجتذبت مرحلة التنقيب في البيانات الكثير من الاهتمام في الأوساط البحثية على مدي العقد الماضي، في محاولة لتطوير خوارزميات قابلة للتوسع والتكيف مع كميات متزايدة من البيانات في البحث عن أنماط معرفية ذات معنى. وقد نمت حزم من الخوارزميات والبرمجيات و بشكل كبير خلال العقد الماضي، إلى حد أن التوسع قد جعل من الصعب على العاملين في هذا الحقل تتبع التقنيات المتاحة لحل مهمة معينة.
تعاريف مختلفه
- عملية استخراج أنماط معرفية من مجموعات البيانات الكبيرة من خلال الجمع بين الأساليب من الإحصاءات والذكاء الاصطناعي مع إدارة قواعد البيانات.
- هو خطوة واحدة في اكتشاف المعرفة داخل قواعد البيانات (KDD) حيث تستخدم أساليب التحليل مثل: الشبكات العصبية Neural Networks أو الخوارزميات الجينية Genetic Algorithms أو شبكة القرارات Decision Trees والتقنية والنماذج الهجينة Hybrid Models لتحديد الأنماط والعلاقات في مجموعات البيانات.
- عملية اكتشاف المعرفة في قواعد البيانات عن طريق تحديد الأنماط والاتجاهات في البيانات التي تم جمعها باستخدام طرق مختلفة مثل : التصنيف Classification أو التحليل التسلسلي Sequential analysis أو العنقدة (التجميع) clustering أو قواعد الارتباط Association Rule.
- عملية يتم من خلالها فرز كميات كبيرة من البيانات بهدف استخلاص المعلومات ذات الصلة. ويستخدم هذا المصطلح على نحو متزايد في العلوم لاستخراج المعلومات من مجموعات البيانات الهائلة الناتجة عن الطرق التجريبية والرصدية الحديثة، ولاسيما في سياق الحقول البيولوجية.
- عملية الاختيار، والاستكشاف، ووضع نماذج لكميات كبيرة من البيانات لاكتشاف الاطراد أو العلاقات المجهولة بهدف الحصول على نتائج واضحة ومفيدة لمالك قاعدة البيانات.
- فرع من علوم الكمبيوتر، يهتم باستخراج أنماط من مجموعات البيانات الكبيرة من خلال الجمع بين التحليل الإحصائي والذكاء الاصطناعي مع إدارة قواعد البيانات. ويعتبر استخراج البيانات كأداة ذات أهمية متزايدة من قبل رجال الأعمال الحديثة لتحويل البيانات إلى معلومات لإعطاء الأعمال ميزة إعلامية. ويستخدم حاليا في مجموعة واسعة من الممارسات التنميط، مثل التسويق، والمراقبة، والكشف عن الغش، واختيار شريك تجاري.
- التنقيب عن البيانات هو حقل متعدد التخصصات، يستفيد من المجالات بما في ذلك تقنية قاعدة البيانات، الذكاء الاصطناعي، والتعلم الآلي، والشبكات العصبية، والإحصاءات والتعرف على الأنماط، والنظم القائمة على المعرفة، واكتساب المعرفة، واسترجاع المعلومات، والحوسبة عالية الأداء والصورة ومعالجة الإشارات، وتحليل البيانات المكانية و البيانات التصورية ( Data Visualization )، والتي تعتمد بشكل كلي على الإدراك البصري.
تمر عمليه التنقيب في البيانات بعدد من المراحل تبدأ من تنقية البيانات، ثم توحيد البيانات، واختبار البيانات ذات العلاقة، ثم نقلها، وتصنيفها ثم تقييمها واستخراجها. هذه هي مراحل تعدين البيانات ولكل مرحلة تفاصيلها الدقيقة، وتتم مرحلة تلو الأخرى لتخرج في النهاية معلومات مفيدة ذات علاقة وقواسم وروابط مشتركة، لكي تقدم في النهاية إلى صناع القرار والجهات المستفيدة بحيث يتم توظيفها والاستفادة منها في مختلف المجالات العلمية والعملية.
مراحل اكتشاف المعرفة:
اكتشاف المعرفة في قواعد البيانات (Knowledge Discovery in Database (KDD ليس بالعملية السهلة والتي قد يعتقد البعض أنها تتوقف عند تجميع البيانات وإدارتها، بل نراها تمتد إلى التحليل والتوقع والتنبؤ بما سيحدث مستقبلاً.
تتضمن عملية اكتشاف المعرفة الخطوات التالية:
١- اكتشاف البيانات Data discovery:وهي مرحلة جمع البيانات وتشمل كشف وتحديد وتوصيف البيانات المتاحة.
٢- تصفية البيانات وتنقيتها Data cleaning:ويتم في هذه المرحلة إزالة البيانات المزعجة Noise التي لا أهمية لها، كما يتم حذف البيانات المتضاربة والبيانات الغير متناسقة.
٣- تكامل البيانات Data integration:يتم في هذه المرحلة تجميع البيانات المتشابهة وذات الصلة من مصادر البيانات المتعددة ودمجها معا.
٤- اختيار البيانات Data selection:في هذه المرحلة، يتم تحديد واسترجاع البيانات الملائمة من مجموعة البيانات.
٥- تحويل البيانات Data transformation:في هذه المرحلة يتم تحويل البيانات إلى نماذج مخصصة ملائمة لإجراءات البحث والاسترجاع بواسطة خلاصة الإنجاز أو عمليات التجميع.
٦- التنقيب عن البيانات Data mining:أي استخدام طرق ذكية تطبق لاستخلاص أنماط البيانات استخراج نماذج مفيدة قدر الإمكان.
٧- تقييم النمط Pattern evaluation:يتم في هذه المرحلة تحديد الأنماط المهمة حقا والتي تمثل قاعدة المعرفة لاستخدام بعض المقاييس المهمة.
٨- تمثيل المعرفة وتقديمها Knowledge presentation:وهي المرحلة الأخيرة من مراحل اكتشاف المعرفة في قواعد البيانات وهي المرحلة التي يراها المستفيد، هذه المرحلة الأساسية تستخدم الأسلوب المرئي لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات.
انواع التنقيب عن البيانات
1. التنقيب التنبؤى (prediction method) :- وهو ايجاد افضل التنبؤات اعتمادا على المعطيات ويعتمد هذا التنقيب على استخدام المعلومات القديمه لتوقع ما سيحدث في المستقبل.
2. التنقيب الوصفي ( Description method) :- هي عملية وصف للبيانات المتاحه ومعرفة تصنيفاتها حسب تواجدها والعلاقات بينها
هداف للتنقيب في البيانات(Data mining)
هناك ثلاثة أهداف للتنقيب في البيانات (Data mining):1) من أجل تعليل بعض الظواهر المرئية. مثال: لماذا زادت نسبة المدخنين في الوطن العربي؟
2) من أجل التثبت من نظرية ما. مثال: التثبت من النظرية التي تقول بأن الأسر الكبيرة تهتم بالضمان الصحي أكثر من الأسر الصغيرة عددا.
3) من أجل تحليل البيانات للحصول على علاقات جديدة وغير متوقعة. مثال: كيف سيكون الانفاق العام إن كان ملازما لعمليات خداع واسعة من قبل البطاقات الائتمانية.
تطبيقات التنقيب في البيانات (Data mining)
وسائل التنقيب في البيانات تُستعمل وبنجاح في الكثير من التطبيقات الحقيقة حول العالم. التطبيقات التالية تشمل بعضا من الأمثلة: (يتبعها مثال لكل تطبيق)- كتابة تقرير مختصر عن فئة معينة Profiling Populations: تطوير وإنشاء تقارير موجزة عن الزبائن المهمين وعن بطاقات الائتمان.
- تحليل النزعة التجارية Analysis of Business Trend: ايجاد الأسواق ذات قدرات النمو القوية أو الضعيفة.
- التسويق لفئة معينة Target Marketing: ايجاد الزبائن من أجل منح التخفيضات لهم لسبب معين.
- تحليل الاستعمال Usage Analysis: ايجاد منوال معين لاستعمال الخدمات والسلع
- فعالية الحملة Campaign Effectiveness: مقارنة استراتيجيات الحملات مع بعضها البعض من أجل ايجاد أكثرها فعالية وتأثيرا.
- جاذبية السلعة: ايجاد السلع التي تباع مع بعضها البعض.
المصادر:
1. مدونه نسيج