پاورپوینت شناخت داده (pptx) 18 اسلاید
دسته بندی : پاورپوینت
نوع فایل : PowerPoint (.pptx) ( قابل ویرایش و آماده پرینت )
تعداد اسلاید: 18 اسلاید
قسمتی از متن PowerPoint (.pptx) :
فصل 2 : شناخت داده
اشیاء داده و انواع صفت
صفت چیست؟
صفات اسمی
صفات باینری
صفات ترتیبی
صفات عددی
توصیف آماری داده
سنجش تمایل مرکزی: میانگین، میانه و مد
سنجش پراکندگی داده: دامنه، چارک، واریانس، انحراف معیار
نمایش گرافیکی داده های آماری
اشیاء داده
مجموعه داده ها از اشیاء داده ساخته می شوند
یک شیء داده نشان دهنده یک موجودیت است.
مثال ها:
پایگاه داده فروش: مشتریان، کالاهای فروشگاه، فروش
پایگاه داده پزشکی: بیماران، درمانها
پایگاه داده دانشگاه: دانشجویان، اساتید، دروس
به اشیاء داده نمونه ها، مثال ها، نقاط داده، اشیاء و تاپل های داده هم گفته میشود.
اشیاء داده به وسیله صفت ها توصیف میشوند.
سطرهای پایگاه داده -> اشیاء داده ، ستون های پایگاه داده -> صفت ها
صفت ها
صفت ( یا بعد، ویژگی، متغیر): یک فیلد داده بوده و نشان دهنده یک خصیصه یا ویژگی یک شیء داده میباشد.
مثلاً صفات توصیف کننده شیء مشتری: شماره مشتری، نام، آدرس
انواع صفت ها:
اسمی
باینری
ترتیبی
عددی : کمی
مقیاس – فاصله ای
مقیاس- نسبت
انواع صفت ها
اسمی
مقادیر یک صفت اسمی، نمادها یا «اسامی از چیزها» هستند. به آنها صفات قطعی هم گفته می شود.
رنگ مو = { مشکی، بلوند، قهوه ای، خاکستری، قرمز، سفید، خرمایی}
وضعیت تأهل، شغل، شماره شناسایی، کدپستی
باینری
یک صفت اسمی فقط با دو رده یاوضعیت ( 0 و 1)
باینری متقارن: ارزش هر دو وضعیت آن برابر و هم وزن است مثل جنسیت
باینری نامتقارن: برابری وضعیت ها اهمیتی ندارد مثل نتایج آزمایش پزشکی( مثبت یا منفی)
قرارداد: اکثر نتایج مهم را با 1 نشان می دهند(مثل اچ آی وی مثبت)
ترتیبی
مقادیر دارای ترتیب معنایی یا رتبه بندی بین خود هستند اما اهمیت بین مقادیر متوالی شناخته شده نیست.
سایز نوشیدنی = { کوچک، متوسط، بزرگ} ، نمره، رتبه بندی نظامی
انواع صفات عددی
صفت عددی یک صفت کمی یا مقداری ( قابل اندازه گیری)است که به فرم صحیح یا حقیقی ارائه می شود
فاصله ای
بر روی مقیاسی از واحد های هم سایزکاربرد دارند
مقادیر مرتب دارند
مثل درجه حرارت بر حسب سلسیوس یا فارنهایت، تاریخ
نقطه صفر واقعی ندارند
نسبت
نقطه صفر ماندگار
می توانیم در مورد مقداری که به مقدار دیگر نسبت می شود صحبت کنیم
مقادیر مرتب شده هستند (10 کلوین دو برابر بیشتر از 5 کلوین است)
مثل درجه حرارت کلوین، طول، تعداد، سالهای تجربه کاری، مقادیر پولی
توصیف آماری داده
انگیزه: فهم بهتر از داده ها، شناسایی خصوصیات داده و آشکار سازی داده های پرت و نامربوط
سنجش تمایل مرکزی
وسط، میانه، مد و میان دامنه
سنجش پراکندگی داده ها
دامنه، چارک، انحراف معیار، واریانس و ...
نمایش ویژوال داده ها
نمودار میله ای، پلات چارک، هیستوگرام، پلات های پراکندگی و ...
سنجش تمایل مرکزی
میانگین(mean ):
میانگین وزن دار: هر مقدار در یک مجموعه مرتبط با یک وزن می باشد.
میانگین تریم: کنار گذاشتن مقادیر بسیار بالا و بسیار پایین
میانه (median):
مقدار وسط در یک مجموعه مرتب شده از مقادیر
اگر تعداد فرد باشد مقدار وسط و اگر تعداد زوج باشد میانگین دو مقدار وسط
مد (mode):
مقداری که در یک مجموعه بیش از همه رخ میدهد
Unimodal, bimodal, trimodal
فرمول تجربی برای داده های unimodal نامتقارن
داده متقارن در مقابل نا متقارن
میانگین، میانه و مد متقارن در برابر داده نامتقارن مثبت و منفی
نامتقارن مثبت
نامتقارن منفی
متقارن
سنجش پراکندگی داده(1)
چارکها، پرتها و boxplot ها:
دامنه: مجموعه مابین بزرگترین و کوچکترین مقادیر متغیر
چارک ها: نقاطی که در فاصله های منظم یک داده توزیع شده قرار دارند
چارک اول(Q1): 25% بخش پایینی داده، چارک سوم(Q3): 75% پایینی یا 25% بالایی
دامنه میان چالاکی(Inter-quartile range): IQR = Q3 – Q1