رگرسیون خطی چیست؟


از بین جداول فوق مهمترین جداول برای ارائه نتایج نهایی جدول خلاصه مدل (Model Summary) و جدول ضرایب می‌باشد (Coefficients). ما برای ارائه نتایج نهایی ترسیم جدول زیر را پیشنهاد می‌کنیم (توجه داشته باشید که اطلاعات مندرج در جدول ۱ تماماً ساختگی است و داده‌ها واقعی نیستند):

نحوه گزارش نتایج تحلیل رگرسیون چند متغیری

تحلیل رگرسیون چندمتغیره یکی از پرکاربردترین تحلیل‌های آماری موجود در آمار استنباطی می‌باشد. این تحلیل پیچیدگی‌های زیادی دارد و می‌توان آن را یکی از سخت‌ترین تحلیل‌های آماری نامید.رگرسیون خطی چیست؟

بارها دیده شده است که در پژوهش‌های مختلف تحلیل رگرسیون چندمتغیری به درستی انجام شده است اما در گزارش نتایج آن در قالب یک مقاله یا پایان نامه بسیار گنگ عمل شده و یا تمامی جداول مربوط به تحلیل آمده است. در اینجا بعد از مطالعات فراوان بر روی مقالات و پایان نامه‌های داخلی و خارجی، استانداردی از نحوه گزارش نتایج تحلیل رگرسیون چند متغیری ارایه می‌دهیم تا احتمالاً مورد استفاده پژوهشگران و تحلیل‌گران آماری قرار گیرد. در زیر به بررسی و نحوه گزارش نتایج تحلیل رگرسیون چند متغیری به سبک ورود (Enter) پرداخته می‌شود. با وب سایت چاپ مقاله اوج دانش همراه باشید.

کار را با ذکر مثالی شروع می‌کنیم. پژوهشگری برای تحلیل داده‌های این پژوهش “پیش بینی بلوغ شغلی از طریق ابعاد سرمایه روان‌شناختی (که عبارتند از خودکارآمدی، امیدواری، تاب آوری و خوش بینی)” از تحلیل رگرسیون چندمتغیری استفاده نماید. بعد از ورود داده‌ها و اجرای فرمان:

نحوه گزارش نتایج رگرسیون چند متغیری

بعد از باز شدن کادر مورد نظر و انتقال متغیر مستقل (پیش بین) به کار Independent و متغیر وابسته (ملاک) به کادر Dependent کار را شروع می‌کنیم. در اولین قدم بعد از اجرای تحلیل رگرسیون چند متغیری چهار جدول به نام‌های جدول متغیرهای وارد / حذف شده (Variables Entered/Removed)، جدول خلاصه مدل (Model Summary)، جدول ANOVA (تحلیل واریانس تک متغیره) و جدول ضرایب (Coefficients) ارایه می‌دهد. تصویر هریک از جداول به ترتیب در زیر آمده است.

24 3 (2)

3 (1)

از بین جداول فوق مهمترین جداول برای ارائه نتایج نهایی جدول خلاصه مدل (Model Summary) و جدول ضرایب می‌باشد (Coefficients). ما برای ارائه نتایج نهایی ترسیم جدول زیر را پیشنهاد می‌کنیم (توجه داشته باشید که اطلاعات مندرج در جدول ۱ تماماً ساختگی است و داده‌ها واقعی نیستند):

11

جدول فوق نتایج جدول خلاصه مدل و ضرایب را به شکلی منسجم و صحیح در خود خلاصه نموده است که هم برای فصل چهارم پایان نامه و هم برای بخش یافته‌های مقاله می‌توان از آن استفاده کرد.

حال سوال اینجاست که جدول ۱ چگونه تفسیر می‌شود؟ در تفسیر جدول فوق، در گام اول به میزان ADJ.R 2 توجه می‌شود. این میزان نشان می‌دهد که مدل مذکور چند درصد از واریانس بلوغ شغلی را پیش‌بینی می‌کند. به این معنی که چهار زیرمقیاس خودکارامدی، امیدواری، تاب‌آوری و خوش بینی ۱۵ درصد از واریانس بلوغ شغلی را پیش‌ بینی می‌کند. زیرا میزان ADJ.رگرسیون خطی چیست؟ R 2 برابر با ۰/۱۵ می‌باشد که درصورتی که این مقدار در ۱۰۰ ضرب شود برابر با ۱۵ خواهد شد. شاخص بعدی میزان بتای (Beta) هر متغیر است. همانگونه که از مقادیر P-Value هریک از متغیرها دیده می‌شود سه زیرمقیاس امیدواری و تاب آوری و خوش بینی هستند که به صورت معناداری بلوغ شغلی را پیش‌بینی می‌کنند. در تفسیر این یافته‌ها اینگونه مطرح می‌شود که با افزایش یک انحراف استاندارد در نمره امیدواری، نمره بلوع شغلی ۰/۳۵ انحراف استاندارد افزایش خواهد یافت. همچنین با افزایش یک انحراف استاندارد در نمره تاب آوری، نمره بلوغ شغلی ۰/۲۸ انحراف استاندارد بالاتر خواهد رفت و در صورت افزایش انحراف استاندارد در نمره خوش بینی، نمره بلوغ شغلی ۰/۲۵ انحراف استاندارد بالاتر خواهد رفت. شما می‌توانید دقیقا تفاسیر بالا را برای تفسیر نتایج نیز استفاده کنید.

گروه تحقیقاتی اوج دانش این آمادگی را دارد که در هر مرحله از انجام تحلیل آماری برای پایان نامه و مقاله به اندسته از دانشجویانی که نیازمند مشاوره تخصصی می‌باشند کمک و یاری برساند.

مقدمه

رگرسیون خطی مرحله بعدی بعد از همبستگی است. زمانی استفاده می شود که بخواهیم مقدار یک متغیر را بر اساس مقدار متغیر دیگری پیش بینی کنیم. متغیری که می خواهیم پیش بینی کنیم، متغیر وابسته (یا گاهی اوقات، متغیر نتیجه) نامیده می شود. متغیری که برای پیش‌بینی مقدار متغیر دیگر استفاده می‌کنیم، متغیر مستقل (یا گاهی اوقات، متغیر پیش‌بینی‌کننده) نامیده می‌شود. به عنوان مثال، می توانید از رگرسیون خطی برای درک اینکه آیا طلاق بر اساس تحصیلات طرفین قابل پیش بینی است یا خیر، استفاده کنید. آیا می توان مصرف تریاک را بر اساس مدت زمان مصرف تریاک پیش بینی کرد. و غیره اگر به جای یک متغیر، دو یا چند متغیر مستقل دارید، باید از رگرسیون چندگانه استفاده کنید.

این راهنمای «شروع سریع» به شما نحوه انجام رگرسیون خطی با استفاده از نرم افزار اس پی اس اس و همچنین تفسیر و گزارش نتایج این آزمون را نشان می دهد. با این حال، قبل از اینکه شما را با این روش آشنا کنیم، باید فرضیه های مختلفی را که داده های شما باید رعایت کنند تا رگرسیون خطی به شما یک نتیجه معتبر بدهد، بدانید. در ادامه به این فرضیات می پردازیم.

آمار SPSS

فرضیه ها

هنگامی که تصمیم می گیرید داده های خود را با استفاده از رگرسیون خطی تجزیه و تحلیل کنید، بخشی از فرآیند شامل بررسی می شود تا مطمئن شوید که داده هایی که می خواهید تجزیه و تحلیل کنید واقعاً می توانند با استفاده از رگرسیون خطی تجزیه و تحلیل شوند. شما باید این کار را انجام دهید زیرا تنها زمانی استفاده از رگرسیون خطی مناسب است که داده‌های شما از هفت فرضیه لازم برای رگرسیون خطی عبور کند تا نتیجه معتبری به شما بدهد. در عمل، بررسی این هفت فرضیه فقط کمی زمان بیشتری به تجزیه و تحلیل شما اضافه می کندو از شما می‌خواهد هنگام انجام تجزیه و تحلیل، روی چند دکمه دیگر در آمار SPSS کلیک کنید، و همچنین کمی بیشتر در مورد داده‌های خود فکر کنید، و اینطوری انجام می شود و انجام آن دشوار نیست

نکته:جهت انجام پروژه spss خود نیازمند آن هستید که آموزش کافه پروژه را از ابتدا ملاحظه نمایید لذا جهت مشاهده و آموزش های مرتبط با این نرم افزار لازم است کلمه آموزشspss را در بخش جستجو وارد نمایید و اینتر بزنید

قبل از اینکه شما را با این هفت فرضیه آشنا کنیم، تعجب نکنید اگر هنگام تجزیه و تحلیل داده های خود با استفاده از آمار SPSS، یک یا چند مورد از این فرضیات از بین رفت (یعنی انجام نشد). زمانی که با داده‌های دنیای واقعی کار می‌کنید، به جای نمونه‌های کتاب درسی، که اغلب به شما نشان می‌دهند چگونه رگرسیون خطی را زمانی که همه چیز خوب پیش می‌رود، به شما نشان می‌دهد، غیرواقعی نیست! با این حال، نگران نباشید. حتی زمانی که داده های شما برخی از فرضیه ها را با شکست مواجه می کند، اغلب راه حلی برای غلبه بر آن وجود دارد. ابتدا، بیایید به این هفت فرضیه نگاهی بیندازیم:

فرضیه شماره 1: متغیر وابسته شما باید در سطح پیوسته اندازه گیری شود (به عنوان مثال، متغیر بازه یا نسبت است). نمونه هایی از متغیرهای پیوسته عبارتند از: زمان تجدید نظر (اندازه گیری شده بر حسب ساعت)، هوش (اندازه گیری شده با استفاده از نمره IQ)، عملکرد امتحان (اندازه گیری از 0 تا 100)، وزن (اندازه گیری شده بر حسب کیلوگرم)، و غیره. می‌توانید در مقاله ما: انواع متغیر، درباره متغیرهای بازه و نسبت اطلاعات بیشتری کسب کنید.

فرضیه شماره 2: متغیر مستقل شما نیز باید در سطح پیوسته اندازه گیری شود (یعنی متغیر بازه یا رگرسیون خطی چیست؟ نسبت است). برای نمونه‌هایی از متغیرهای پیوسته به گلوله بالا مراجعه کنید.

فرضیه شماره 3: باید یک رابطه خطی بین دو متغیر وجود داشته باشد. در حالی که روش‌های مختلفی برای بررسی وجود رابطه خطی بین دو متغیر شما وجود دارد، پیشنهاد می‌کنیم با استفاده از آمار SPSS یک Scatterplot ایجاد کنید که در آن می‌توانید متغیر وابسته را در مقابل متغیر مستقل خود رسم کنید و سپس به صورت بصری نمودار پراکندگی را برای بررسی خطی بودن بررسی کنید. نمودار پراکندگی شما ممکن است چیزی شبیه به یکی از موارد زیر باشد:

اگر رابطه نمایش داده شده در نمودار پراکندگی شما خطی نیست، باید یک تحلیل رگرسیون غیر خطی انجام دهید، یک رگرسیون چند جمله ای انجام دهید یا داده های خود را “تبدیل” کنید، که می توانید با استفاده از آمار SPSS انجام دهید. در راهنماهای پیشرفته‌مان، ما به شما نشان می‌دهیم که چگونه: (الف) یک نمودار پراکنده برای بررسی خطی بودن هنگام انجام رگرسیون خطی با استفاده از آمار SPSS ایجاد کنید. (ب) نتایج مختلف پراکندگی را تفسیر کنید. و (ج) اگر رابطه خطی بین دو متغیر شما وجود نداشته باشد، داده های خود را با استفاده از آمار SPSS تغییر دهید.

فرضیه شماره 4: نباید نقاط پرت قابل توجهی وجود داشته باشد. نقطه پرت یک نقطه داده مشاهده شده است که دارای یک مقدار متغیر وابسته است که با مقدار پیش بینی شده توسط معادله رگرسیون بسیار متفاوت است. به این ترتیب، نقطه پرت نقطه ای در یک نمودار پراکنده خواهد بود که (به صورت عمودی) از خط رگرسیون دور است و نشان می دهد که باقیمانده زیادی دارد، همانطور که در زیر مشخص شده است:

مشکل پرت ها این است که می توانند تأثیر منفی بر تحلیل رگرسیون داشته باشند (به عنوان مثال، تناسب معادله رگرسیون را کاهش دهند) که برای پیش بینی مقدار متغیر وابسته (نتیجه) بر اساس متغیر مستقل (پیش بینی کننده) استفاده می شود. این خروجی را که آمار SPSS تولید می کند تغییر می دهد و دقت پیش بینی نتایج شما را کاهش می دهد. خوشبختانه، هنگام استفاده از آمار SPSS برای اجرای یک رگرسیون خطی روی داده‌های خود، می‌توانید به راحتی معیارهایی را برای کمک به تشخیص موارد دور از دسترس در نظر بگیرید. در راهنمای رگرسیون خطی پیشرفته ما: (الف) به شما نشان می‌دهیم که چگونه با استفاده از “تشخیص موردی” که یک فرآیند ساده در هنگام استفاده از آمار SPSS است، نقاط پرت را شناسایی کنید. و (ب) در مورد برخی از گزینه هایی که برای مقابله با موارد پرت دارید بحث کنید.

فرضیه شماره 5: شما باید از مشاهدات استقلال داشته باشید، که به راحتی می توانید با استفاده از آمار Durbin-Watson، که یک تست ساده برای اجرا با استفاده ازنرم افزار SPSS است، بررسی کنید. ما توضیح خواهیم داد که چگونه نتیجه آزمون دوربین-واتسون را در راهنمای رگرسیون خطی پیشرفته خود تبیین کنیم.

فرضیه شماره 6: داده های شما باید همسانی را نشان دهند، جایی که واریانس ها در امتداد خط بهترین تناسب مشابه با حرکت شما در طول خط باقی می مانند. در حالی که ما در راهنمای رگرسیون خطی بهبودیافته خود درباره معنای این و چگونگی ارزیابی همسویی بودن داده‌هایتان توضیح می‌دهیم، به سه نمودار پراکندگی زیر که سه مثال ساده ارائه می‌دهند، نگاهی بیندازید: دو مورد از داده‌هایی که این فرض را ناموفق می‌دانند (به نام ناهمسانی). و یکی از داده هایی که این فرض را برآورده می کند (به نام homoscedasticity)

در حالی که اینها به نشان دادن تفاوت‌ها در داده‌هایی کمک می‌کنند که با فرض هم جهت بودن مطابقت دارند یا آن را نقض می‌کنند، داده‌های دنیای واقعی می‌توانند بسیار آشفته‌تر باشند و الگوهای مختلف ناهمگنی را نشان دهند. بنابراین، در راهنمای رگرسیون خطی پیشرفته‌مان، توضیح می‌دهیم: (الف) برخی از مواردی که باید هنگام تفسیر داده‌های خود در نظر بگیرید. و (ب) راه‌های ممکن برای ادامه تحلیل شما در صورتی که داده‌های شما با این فرضیه مطابقت نداشته باشند.

فرضیه 7: در نهایت، باید بررسی کنید که باقیمانده‌ها (خطاهای) خط رگرسیون تقریباً به طور معمول توزیع شده‌اند (این اصطلاحات را در راهنمای رگرسیون خطی بهبود یافته توضیح می‌دهیم). دو روش متداول برای بررسی این فرض شامل استفاده از هیستوگرام (با منحنی نرمال روی هم قرار داده شده) یا نمودار P-P نرمال است. مجدداً، در راهنمای رگرسیون خطی پیشرفته‌مان، ما: (الف) به شما نشان می‌دهیم که چگونه با استفاده از نرم افزار SPSS این فرض را بررسی کنید، چه از یک هیستوگرام (با منحنی نرمال روی هم قرار داده شده) یا P-P Plot معمولی استفاده کنید. (ب) توضیح دهید که چگونه این نمودارها را تفسیر کنید. و (ج) در صورتی که داده‌های شما این فرض را برآورده نکنند، راه‌حلی ممکن ارائه دهید.

با استفاده از نرم افزار SPSS می توانید فرضیات #3، #4، #5، #6 و #7 را بررسی کنید. پیش از حرکت به پیش فرض های شماره 4، 5، 6 و 7 ابتدا باید فرضیات شماره 3 بررسی شوند. ما پیشنهاد می‌کنیم فرضیات را به این ترتیب آزمایش کنید زیرا فرضیه های #3، #4، #5، #6 و #7 از شما می‌خواهند که ابتدا رویه رگرسیون خطی را در آمار SPSS اجرا کنید، بنابراین پس از بررسی فرضیه 1، رسیدگی به آنها آسان‌تر است. و #2. فقط به یاد داشته باشید که اگر آزمون های آماری را بر اساس این فرضیه ها به درستی اجرا نکنید، نتایجی که هنگام اجرای رگرسیون خطی به دست می آورید ممکن است معتبر نباشند. به همین دلیل است که ما تعدادی از بخش‌های راهنمای رگرسیون خطی بهبودیافته خود را برای کمک به شما در درستی این موضوع اختصاص می‌دهیم. می‌توانید در مورد محتوای بهبود یافته ما به طور کلی در ویژگی‌های ما اطلاعات بیشتری کسب کنید: صفحه مرور کلی، یا به طور خاص، یاد بگیرید که چگونه به آزمایش فرضیات در صفحه ویژگی‌ها: فرضیات ما کمک می‌کنیم.

در بخش رویه، روش آماری SPSS را برای انجام یک رگرسیون خطی با فرض اینکه هیچ فرضی نقض نشده است، نشان می‌دهیم. ابتدا مثالی را که در این راهنما استفاده شده معرفی می کنیم.

نکته: یک دیگر از نرم افزارهایی که می تواند در رابطه با تحلیل داده ها به شما کمک کند لیزرل است که جهت انجام پروژه lisrel خود نیازمند آن هستید که آموزش کافه پروژه را از ابتدا ملاحظه نمایید لذا جهت مشاهده و آموزش های مرتبط با این نرم افزار لازم است کلمه آموزشlisre l را در بخش جستجو وارد نمایید و اینتر بزنید

نرم افزار SPSS

یک فروشنده برای یک برند بزرگ خودرو می خواهد تعیین کند که آیا رابطه ای بین درآمد یک فرد و قیمتی که برای یک تخته فرشمی پردازد وجود دارد یا خیر. به این ترتیب، «درآمد» افراد، متغیر مستقل و «قیمت»ی که برای یک تخته فرش می پردازند، متغیر وابسته است. فروشنده می خواهد از این اطلاعات برای تعیین اینکه کدام فرش ها ا را به مشتریان بالقوه در مناطق جدیدی که درآمد متوسط ​​مشخص است، به نمایش بگذارد، استفاده کند.

مثالهایی از رگرسیون خطی چندگانه در SPSS

یک دانشمند می خواهد تحقیق کند که آیا از طریق چندین ویژگی بیمار می تواند هزینه های مراقبت های بهداشتی را پیش بینی کرد؟ تمام داده ها در health-costs.sav است که به شرح زیرمیباشد.

A>> متغیر وابسته هزینه های مراقبت های بهداشتی (به دلار آمریکا) اعلام شده در سال 2020 یا به طور خلاصه “هزینه” است.

B>> متغیرهای مستقل جنس ، سن ، نوشیدن الکل، سیگار کشیدن و ورزش هستند. دانشمند ما فکر می کند که هر متغیر مستقل با هزینه های مراقبت های بهداشتی رابطه خطی دارد. بنابراین او تصمیم می گیرد که یک مدل رگرسیون خطی چندگانه را برازش دهد. مدل نهایی به طور همزمان هزینه های متغیرهای مستقل را پیش بینی می کند.

بررسی داده ها و آمار توصیفی

قبل از اجرای رگرسیون چندگانه ، ابتدا اطمینان حاصل کنید که

  1. متغیر وابسته کمی است.
  2. هر متغیر مستقل کمی یا دوحالته است.
  3. حجم نمونه به اتدازه کافی بزرگ است.

یک بازرسی بصری از داده های ما نشان می دهد که الزامات 1 و 2 برآورده شده است: جنسیت یک متغیر دوحالته است و سایر متغیرهای مرتبط کمی هستند. در مورد اندازه نمونه، قاعده کلی این است که برای هر متغیر مستقل حداقل 15 مشاهده مستقل لازم دارید. در مثال ما ، از 5 متغیر مستقل استفاده خواهیم کرد بنابراین به یک نمونه نمونه حداقل (N = 5 * 15 = 75) نیاز داریم. داده های ما شامل 525 مورد است، بنابراین خوب به نظر می رسد.

توجه داشته باشید که داده های مثال ما شامل 525 مشاهده مستقل است

به خاطر داشته باشید ، اگر مقادیر گمشده در متغیرهای ما وجود داشته باشد ، ممکن است نتوانیم از همه موارد N = 525 استفاده کنیم. بیایید اکنون برخی از بررسی های سریع داده ها را ادامه دهیم.

  1. هیستوگرام اساسی را بر روی تمام متغیرها اجرا کنید. بررسی کنید که توزیع فراوانی آنها منطقی به نظر می رسد. آیا داده پرت وجود دارد؟ آیا باید مقادیر از دست رفته را مشخص کنید؟
  2. نمودارپراکنش را برای هر متغیر مستقل (محور x)در مقابل متغیر وابسته (محور y)بررسی کنید. * آیا روابط منحنی شکل یا مورد غیر معمولی مشاهده می کنید؟
  3. آمار توصیفی را برای تمام متغیرها انجام دهید. اگر متغیرهایی مقادیر گمشده دارند بررسی کنید و اگر وجود دارد تعداد آنها چندتا است.

4- همبستگی پیرسون را در بین تمام متغیرها بررسی کنید. همبستگی مطلق بیش از 0.8 یا بیشتر ممکن است بعداً باعث ایجاد عوارضی (معروف به چند خطی بودن) برای تحلیل رگرسیون واقعی شود.

APA توصیه می کند که این دو جدول آخر را مانند شکل زیر ترکیب و گزارش کنید.

APA جدول گزارش شده برای همبستگی و آمار توصیفی را گزارش می دهد

به عنوان بخشی از نتایج رگرسیون چندگانه

این بررسی های داده ها نشان می دهد که داده های نمونه ما کاملاً خوب به نظر می رسند: همه نمودارها قابل قبول هستند ، هیچ مقدار از دست رفته ای وجود ندارد و هیچ یک از همبستگی ها از 0.43 فراتر نمی رود. بیایید اکنون با تحلیل رگرسیون واقعی پیش برویم.

تالارگفتگوی رگرسیون درSPSS

ابتدا مطابق شکل زیر به Analyze >> Regression >> Linear خواهیم رفت.

سپس ، گفتگوی اصلی و زیر دیالوگ ها را مانند تصویر زیر پر می کنیم.

  • ما فاصله اطمینان 95٪ برای ضرایب b انتخاب می کنیم.
  • برخی از تحلیلگران همبستگی های جزئی مربعی ( squared semipartial ) را به عنوان اندازه گیری اندازه اثر برای پیش بینی های فردی گزارش می دهند. اما فعلاً ، از آنها بگذریم.
  • با انتخاب “موارد را به صورت لیست حذف کنید” ، تجزیه و تحلیل رگرسیون فقط برای موارد بدون مقادیر از دست رفته در هر یک از متغیرهای رگرسیون انجام می شود. این برای داده های مثال ما خوب است اما ممکن است ایده خوبی برای سایر داده ها نباشد.

با کلیک روی Paste ، دستور زیر را نتیجه میدهد. بیایید آن را اجرا کنیم.

دستور رگرسیون چندگانه در SPSS

*Basic multiple regression syntax without regression plots.

REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT costs
/METHOD=ENTER sex age alco cigs exer.

خروجی رگرسیون چندگانه در SPSS

اولین جدولی که بررسی می کنیم ، جدول ضرایب نشان داده شده در زیر است.

خروجی رگرسیون چندگانه

ضرایبb مدل رگرسیون ما را مشخص می کنند:

$Costs’ = -3263.6 + 509.3 \cdot Sex + 114.7 \cdot Age + 50.4 \cdot Alcohol\\ + 139.4 \cdot Cigarettes – 271.3 \cdot Exericse$

(\cdot) هزینه های بهداشتی سالیانه پیش بینی شده را به دلار نشان می دهد.

β 1 = μ i + S 2 A

هر ضریب b میانگین افزایش هزینه های مرتبط با افزایش 1 واحد در یک پیش بینی را نشان می دهد. به عنوان مثال ، افزایش 1 ساله در سن به طور متوسط 114.7 دلار در هزینه ها افزایش می یابد. یا افزایش 1 ساعته ورزش در هفته با افزایش – 271.3 دلار (یعنی 271.3 دلار کاهش) هزینه های سالانه سلامتی همراه است.

حال بیایید، در مورد جنسیت صحبت کنیم: افزایش 1 واحدی جنسیت ، به طور متوسط 509.3 دلار هزینه هارا افزایش می یابد. برای درک معنای این مورد ، لطفا توجه داشته باشید که جنسیت در داده های مثال ما 0 (زن) و 1 (مرد) رمزگذاری شده است. بنابراین برای این متغیر ، تنها افزایش 1 واحدی ممکن است از زن (0) به مرد (1) باشد. بنابراین ، 509.3B =$ به این معناست رگرسیون خطی چیست؟ که بطور متوسط سالانه هزینه ها بر ای مردان 509.3 دلار بالاتر از زنان است ( هر چیز دیگری برابر است ، یعنی ). این چگونگی استفاده از متغیرهای دوحالته در رگرسیون چندگانه را روشن می کند. وقتی متغیر های تصنعی را آموزش دهیم این ایده را توضیح خواهیم داد.

ضرایب b ، قدرت نسبی پیش بینی کننده های ما را به ما نمی گویند. دلیل این امر این است که مقیاس های مختلفی دارند: آیا یک سیگار در روز بیشتر از یک نوشیدنی الکلی در هفته است یا کمتر؟ یک راه برای مقابله با این ، مقایسه ضرایب رگرسیون استاندارد یا ضرایب بتا است که اغلب به صورت β (حرف یونانی “بتا”) نشان داده می شود. *

ضرایب بتا (ضرایب رگرسیون استاندارد) برای مقایسه نقاط قوت نسبی پیش بینی کننده های ما مفید است. 3 پیش بینی کننده قوی در جدول ضرایب ما عبارتند از:

  • سن (β = 0.322) )؛
  • مصرف سیگار (β = 0.311);
  • ورزش (β = -0.281).

ضرایب بتا با استاندارد سازی همه متغیرهای رگرسیون ( عدد z استاندارد ) قبل از محاسبه ضرایب b بدست می آیند. استاندارد سازی متغیرها یک معیار(یا مقیاس) مشابه را برای آنها اعمال می کنند: نتایج عدد z همیشه میانگین 0 و انحراف استاندارد 1 به دنبال دارد.

این مطلب بدون توجه به اینکه آیا سیگار یا نوشیدنی های الکلی در طول سال به چه میزان محاسبه می شوند، درنظر گرفته می شود. به همین دلیل است که ضرایب B بیش از متغیرهای استاندارد استفاده می شوند در حالی که رگرسیون خطی چیست؟ ضرایب بتا در مدلهای رگرسیونی درونی وبیرونی قابل مقایسه هستند.

بنابراین ضرایب b مدل رگرسیون چندگانه ما را تشکیل می دهند. این به ما می گوید که چگونه می توان هزینه های سالانه مراقبت های بهداشتی را پیش بینی کرد. آنچه که ما نمی دانیم ، این است که چقدر مدل ما این هزینه ها را پیش بینی می کند؟ پاسخ را در جدول خلاصه مدل در زیر می یابیم.

آزمون های آماری

آمار را چنان به کارگیریدکه مرد مست تیرچراغ را نه برای استفاده از روشنایی آن بلکه به خاطر تکیه بر آن.

آزمون t براي ضريب رگرسيون خطي

هدف: بررسي اينكه آيا ضريب رگرسيون معادله خطي( ) ارتباط بين دو متغير x و y صفر است يا خير.

· مشاهدات بايد مستقل باشند

· توزيع متغير وابسته به ازاي هر مقدار متغير مستقل بايد نرمال باشد.

· واريانس توزيع متغير وابسته به ازاي هر مقدار متغير مستقل بايد يكسان باشد

· بين متغيرهاي مستقل همبستگي وجود نداشته باشد

ماهيت متغيرها در دنياي واقعي به گونه اي است كه آنها از تغييرات ايجاد شده در بعضي از متغيرهاي ديگر تاثير مي پذيرند. به عنوان مثال اگر ميزان كود استفاده شده در يك مزرعه گندم به ميزان مناسبي افزايش يابد، مقدار محصول هم بيشتر خواهد شد. اگر در كلاس درس، معلم دانش آموزان را بيشتر تشويق كند، پيشرفت تحصيلي آنها بيشتر خواهد شد. در اقتصاد مبتني بر بازار كاهش عرضه باعث افزايش تقاضا خواهد شد. در دو مثال اول متغيرها داراي رابطه مثبت مي­باشند يعني افزايش يك متغير باعث افزايش متغير ديگر مي شود. در مثال سوم متغيرها داراي رابطه منفي مي باشند يعني كاهش يكي باعث افزايش ديگري مي شود. متغيرهايي كه مي خواهيم تاثير آنها را بر متغير ديگر مطالعه كنيم متغير مستقل ومتغيري كه در حال مطالعه آن هستيم و مي خواهيم ببينيم كه ساير متغيرها چه تاثيري بر آن دارند متغير وابسته ناميده مي شود. به متغير وابسته ملاك و به متغيرهاي مستقل پيش بين هم گفته مي شود. با استفاده از رگرسيون خطی ارتباط بین متغیر وابسته با متغیر های مستقل با استفاده از یک معادله خط بیان می‌شود.

تحليل رگرسيون برای دستیابی به دو هدف كلي زير اجرا می­شود:

· پيش بيني متغير وابسته از روي متغير هاي مستقل

· مطالعه ارتباط بين متغير وابسته با متغير هاي مستقل

به عنوان مثال فرض کنید پژوهشگری می‌خواهد رابطه بین رضایت شغلی، شادکامی و سلامت روانی را مطالعه نماید چنانچه محدودیت های مربوط به بکارگیری رگرسیون برقرار باشد او می‌تواند از تحلیل رگرسیون استفاده نماید. در این پژوهش هر کدام از این سه مقوله به وسیله پرسشنامه های جداگانه ای اندازه گیری می‌شوند و سپس ارتباط بین آنها مورد مطالعه قرار می‌گیرد.

سلامت روان دارای مولفه های مختلفی مانند پذیرش اجتماعی‌، تسلط بر محیط، داشتن رابطه مثبت با دیگران و . است که برآیند آنها نشانگر سلامت روان میباشد. در این تحلیل می‌توان رابطه رضایت شغلی را با هر کدام از این مولفه ها مطالعه نمود و سهم هر کدام از این مولفه ها را در تبیین رضایت شغلی بدست آورد.

علي اصغر قنبري هستم داراي مدرك ليسانس آمار از دانشگاه شهيد بهشتي و کارشناسی ارشد تحقیقات آموزشی از دانشگاه آزاد ساری. در این وبلاگ تعدادی از آزمون های مهم آماری که در پژوهش های مقطع کارشناسی ارشد و دکتری کاربرد زیادی دارند را توضیح داده ام. در صورتی که قصد ندارید خودتان تحلیل آماری داده هایتان را انجام دهید، هر جای ایران که باشید اینجانب با دریافت هزینه از طریق شبکه شتاب در خدمت شما هستم. تلفن: 09112232634 پست الکترونیک: [email protected]

پیاده سازی رگرسیون خطی چندگانه با پایتون

پیاده سازی رگرسیون خطی چندگانه با پایتون

در ترین تو تست، می کوشیم تا حاصل به روزترین تحقیقات آکادمیک را با تجربیات موفق چندین ساله همراه کنیم.

همیشه این موضوع که برخی از افراد علاقه مند به مباحث هوش مصنوعی، یادگیری ماشین، یادگیری عمیق و… به علت عدم تسلط کافی به زبان انگلیسی نمی تونن از منابع اصلی استفاده کنن و گاهی اوقات مجبور می شن برای دوره های بی کیفیت، ناقص و صرفا ترجمه شده هزینه های زیادی رو پرداخت کنن، یک جور حس نارضایتی از وضعیت موجود رو برای من ایجاد می کرد.
این شد که در اسفند سال 1400 بالاخره تصمیمم رو گرفتم و ایده ای که قبلا به صورت نامنظم در سایت هایی مثل ویرگول، Medium، آپارات، Youtube و … بخش هایی از اون رو اجرا کرده بودم، در traintotest.com خیلی نزدیک تر به ساختاری که مدنظرم بود، اجرا کردم. ادامه مطلب



اشتراک گذاری

دیدگاه شما

اولین دیدگاه را شما ارسال نمایید.