מילון סטטיסטי - מונחים בסיסיים בסטטיסטיקה ושיטות מחקר כמותיות

דגימה

אוכלוסייה - אוכלוסיה היא אוסף של אנשים או פרטים שאותה החוקר מעוניין לתאר או להסיק מסקנות לגביה.
מדגם - מדגם הוא אוסף של פריטים שנבחר מתוך האוכלוסייה ושמשמש את החוקר להסקת מסקנות לגבי האוכלוסייה.
דגימה הסתברותית - על מנת להסיק מסקנות תקפות לגבי האוכלוסייה על המדגם להיות מייצג, כלומר על המדגם להיבחר בדגימה הסתברותית, שבה לכל הפרטים באוכלוסיה יש הסתברות ידועה להיבחר למדגם.
דגימה אקראית פשוטה - לכל פרט יש הסתברות ידועה וזהה להיכלל במדגם. בדרך כלל משתמשים בטכניקת הדגימה האקראית הפשוטה בקרב אוכלוסיות הומוגניות.
דגימה שיטתית - טכניקת דגימה שבה בוחרים כל פרט k מאוכלוסיית המחקר.
דגימת שכבות - דגימת שכבות נועדה להבטיח שהמדגם ייצג את האוכלוסייה כאשר האוכלוסייה מורכבת מתת-אוכלוסיות (שכבות) הומוגניות מובחנות והחוקר מצפה שהמדידות שמעניינות אותנו יהיו שונות בתת-אוכלוסיות אלה. דגימת שכבות מבוססת על לקיחת מדגמים מכל תת-אוכלוסיה באמצעות דגימה אקראית פשוטה (פרופורציונית / לא פרופורציונית).
דגימת אשכולות - טכניקת דגימה שבה האוכלוסייה מחולקת לקבוצות (אשכולות) והחוקר בוחר מדגם אקראי של אשכולות. כל הפרטים באשכולות שנבחרו נכללים במדגם. בדרך כלל משתמשים בדגימת אשכולות כאשר אין בידי החוקר מסגרת דגימה של הפרטים באוכלוסיית המחקר, וכן כאשר אוכלוסיית המחקר כוללת פרטים המפוזרים במקומות גאוגרפיים רחוקים מה שמשפיע על עלויות המחקר.
טעות הדגימה - מטרת הדגימה היא לאסוף נתונים מקבוצה מייצגת של האוכלוסייה על מנת להכליל את התוצאות על אוכלוסיית המחקר. יחד עם זאת, יהיה המדגם מייצג ככל שיהיה, עדיין תתכנה הטיות וטעויות, הנובעות מהעובדה כי חוקרים רק חלק מהאוכלוסייה ולא את האוכלוסייה כולה.

סוגים של משתנים

משתנים נומינליים - הערכים המספריים מהווים תוויות בלבד ולא ניתן להתייחס אליהם כאל ערכים מתמטיים.
משתנים אורדינליים - הערכים של התצפיות מבטאים סדר.
משתנים אינטרווליים - המרחק בין כל שתי תצפיות הוא זהה אבל נקודת האפס היא שרירותית. ניתן להתייחס להפרשים בין התצפיות אך לא ליחס ביניהן.
משתנים מסולם יחס - המרחק בין כל שתי תצפיות הוא זהה ונקודת האפס היא קבועה. ניתן להתייחס להפרשים בין התצפיות וליחס ביניהן.

סטטיסטיקה תיאורית

השלב הראשון בניתוח נתוני הסקר הוא חישוב מדדים מסכמים על מנת לקבל תמונת מצב כללית של הנתונים. מטרת הסטטיסטיקה התיאורית היא לתאר את הנתונים.
ממוצע - הממוצע החשבוני של הנתונים. הממוצע מושפע מערכים קיצוניים, ולפיכך הוא לא מתאים לכל סוגי הנתונים. את הממוצע ניתן לחשב עבור משתנים אינטרוולים ומעלה.
חציון - החציון הוא התצפית האמצעית בנתונים (50% מהתצפיות נמצאות מעל החציון ו-50% מהתצפיות נמצאות מתחת לחציון). בדרך כלל משתמשים בחציון כאשר הנתונים אינם סימטריים, או כאשר קיימות תצפיות קיצוניות. את החציון ניתן לחשב עבור משתנים אורדינליים ומעלה.
שכיח - השכיח הוא הערך של התצפית השכיחה ביותר. בדרך כלל משתמשים בשכיח עבור נתונים נומינליים.
טווח - הטווח הוא ההפרש בין התצפית הגבוהה ביותר והתצפית הנמוכה ביותר.
סטיית תקן - סטיית התקן מבטאת את הפיזור של התצפיות סביב הממוצע.
שונות - ריבוע סטיית התקן.
טבלת שכיחויות - מציינת את השכיחות של כל ערך (או קבוצת ערכים) במשתנה הנחקר. טבלת השכיחויות יכולה לכלול מספרים מוחלטים ואחוזים.
דיאגרמת עוגה - הצגה גרפית לסיכום נתונים קטגוריאליים מסולם שמי או סדר. כל פלח בעוגה מייצג קטגוריה ספציפית ובעל שטח הפרופורציונלי למספר המקרים בקטגוריה.
גרף עמודות - הצגה גרפית לסיכום נתונים קטגוריאליים מסולם שמי או סדר. גרף העמודות מציג את הנתונים באמצעות מספר מלבנים בעלי עובי זהה, שכל אחד מהם מייצג קטגוריה ספציפית. הגובה (ולפיכך השטח) של כל מלבן פרופורציונאלי למספר המקרים בקטגוריה. ניתן להציג את גרף העמודות באופן אופקי או אנכי.
היסטוגרמה - הצגה גרפית לסיכום נתונים הנמדדים בסולם מדידה אינטרוולי או יחס (בדידים או רציפים). ההיסטוגרמה מחלקת את טוות הערכים האפשריים בקבוצת הנתונים לקבוצות. עבור כל קבוצה, נבנה מלבן שאורך הבסיס שלו מייצג את טווח הערכים בקבוצה הספציפית, והשטח של המלבן פרופורציונלי למספר התצפיות בקבוצה.
סימטריה - סימטרה קיימת כאשר ערכי המשתנה מתפלגים באותו אופן מעל ומתחת נקודת האמצע של המדגם.
א-סימטריות - א-סימטריות בהתפלגות נתוני המדגם קיימת כאשר ערכים בצד אחד של ההתפלגות נוטים להיות רחוקים יותר מהמרכז לעומת הערכים בצד השני.

הסקה סטטיסטית

הסקה סטטיסטית משתמשת באינפורמציה ממדגם על מנת להסיק על האוכלוסייה ממנה נדגם המדגם.
פרמטר - פרמטר הוא ערך קבוע, בדרך לא ידוע (ולפיכך יש לאמוד אותו), המשמש לתיאור מאפיין מסויים של האוכלוסייה.
סטטיסטי - הסטטיסטי הוא גודל מתמטי שמחושב מנתוני המדגם. משתמשים בו כדי לתת אינפורמציה לגבי הפרמטרים באוכלוסיה הנחקרת.
הטיה - מושג שמבטא את הטעות באמידה, כלומר עד כמה רחוק הסטטיסטי מהפרמטר.
דיוק - מידת הקרבה הצפויה של האומדן לערך האמיתי של הפרמטר.
מדגמים תלויים - מדגמים תלויים (מזווגים) קיימים בסיטואציות הבאות: 1. שני מדגמים שהפרטים בהם מזווגים באופן ברור (בעל-אשה, תאומים זהים) 2. במדגמים שבהם אותה תכונה, או משתנה, נמדדת פעמיים עבור אותו נדגם, תחת נסיבות שונות (לפני-אחרי).
דגמים בלתי תלויים - מדגמים הנבחרים מאותה אוכלוסייה, או מאוכלוסיות שונות, ואין קשר בין המדגמים.

בדיקת השערות

התוצאה של בדיקת ההשערות היא דחיית השערת האפס וקבלת השערת המחקר או אי דחיית השערת האפס. דחיית השערת האפס משמעה שהשערת המחקר עשויה להיות נכונה.
טעות מסוג I וטעות מסוג II - בבדיקת השערות, טעות מסוג I מתרחשת כאשר דוחים את השערת האפס כאשר היא למעשה נכונה. טעות מסוג II מתרחשת כאשר לא דוחים את השערת האפס בעוד שכן היה ניתן לדחות אותה. טעות מסוג I נחשבת לחמורה יותר לעומת טעות מסוג II. לכן, ההליך של בדיקת השערות מבוצע באופן המבטיח הסתברות נמוכה לדחייה מוטעית של השערת האפס. הסתברות זו קרויה רמת מובהקות (ההסתברות לטעות מסוג I). ההסתברות לטעות מסוג II אינה ידועה. טעות מסוג I וטעות מסוג II קשורות ביניהן בקשר הפוך: ככל שהסיכוי לאחת קטן כך גדל הסיכוי לטעות מהסוג השני. טעות מסוג II נובעת בדרך כלל מהעובדה שהמדגם קטן מדי. גם אם החוקר לא דוחה את השערת האפס אין זה בהכרח אומר שהיא נכונה, והדבר יכול לנבוע ממדגם שאינו גדול מספיק.
הסטטיסטי של המבחן - מדד שמחושב מנתוני המדגם ומשמש בסיס להחלטה האם ניתן לדחות את השערת האפס, בהתאם למיקום הסטטיסטי של המבחן בהתפלגות הדגימה של השערת האפס.
הערך הקריטי - הערך שאליו משווים את הסטטיסטי של המבחן, על מנת לבדוק האם ניתן לדחות את השערת האפס. הערך הקריטי תלוי ברמת המובהקות ובכיוון ההשערה (חד צדדית או דו צדדית).
אזור הדחייה - קבוצה של ערכים של סטטיסטי המבחן שעבורם דוחים את השערת האפס.
רמת מובהקות - רמת המובהקות של מבחן לבדיקת השערות הוא ההסתברות הידועה מראש של דחיית השערת האפס, כאשר היא למעשה נכונה. רמת המובהקות נקבעת על ידי החוקר. מטרת החוקר היא לקבוע רמת מובהקות נמוכה ככל האפשר על מנת למנוע הסקת מסקנות לא נכונה לגבי אוכלוסיית המחקר. בדרך כלל, רמת המובהקות נקבעת ברמה של 0.05 (5%).
מובהקות סטטיסטית - ההסתברות לקבל ערך של סטטיסטי המבחן הקיצוני מסטטיסטי המחושב במדגם אם השערת האפס נכונה. זאת ההסתברות לדחייה מוטעית של השערת האפס כאשר היא למעשה נכונה. ערך זה מושווה לרמת המובהקות שקבע החוקר. אם רמת המובהקות (p-value) קטן מרמת המובהקות, אזי דוחים את השערת האפס ברמת המובהקות, כלומר, התוצאה מובהקת.
התפלגות הדגימה - התפלגות תאורטית של חישוב אינסוף מדגמים בגודל מסויים. התפלגות הדגימה מתארת את ההסתברויות הקשורות לסטטיסטי כאשר דוגמים דגימה אקראית מתוך האוכלוסייה. ממוצע התפלגות הדגימה הוא הפרמטר, תנודת הדגימה היא התוצאה שהתקבלה במחקר, מדד הפיזור של התפלגות הדגימה הוא טעות התקן. בכל התפלגות דגימה החוקר קובע איזה שטח של ההתפלגות לא ייחשב כשייך להתפלגות (אזור הדחייה).
עוצמה - מודדת את היכולת של המבחן הסטטיסטי לדחות את השערת האפס כאשר היא אינה נכונה, כלומר, לקבל החלטה נכונה. זוהי ההסתברות שלא לבצע את טעות מסוג II. הערך המכסימלי הוא 1 והערך המינימלי הוא 0.
מבחן חד צדדי - מבחן סטטיסטי לבדיקת השערות שבו הערכים שעבורם אפשר לדחות את השערת האפס נמצאים בצד אחד של התפלגות השערת האפס.
מבחן דו צדדי - מבחן סטטיסטי לבדיקת השערות שבו הערכים שעבורם אפשר לדחות את השערת האפס נמצאים בשני צידי ההתפלגות. קביעת המבחן כחד צדדי או דו צדדי תלויה במטרות המחקר ובידע התאורטי הקיים לגבי השערות המחקר.

אמידה (רווח בר סמך)

רווח בר סמך נותן אומדן לטווח הערכים שכולל את הפרמטר הבלתי ידוע של האוכלוסייה בהסתברות מסויימת (90%, 95%, 99%) והוא מצויין כטווח של ערכים סביב הסטטיסטי שהתקבל במדגם.
רמת בטחון - רמת הביטחון היא ההסתברות שהערך האמיתי נמצא בתוך הרווח בר סמך, והיא נקבעת על ידי החוקר. בדרך כלל, רמת הביטחון נקבעת כ- 95%.

מבחנים פרמטרים

מבחן t עבור מדגם אחד - בודק האם המדגם לקוח מתוך אוכלוסיה בעלת ממוצע מסויים ושונות לא ידועה.
מבחן t עבור שני מדגמים בלתי תלויים - בודק האם הממוצעים של שני מדגמים בלתי תלויים שונים זה מזה, כאשר מניחים שהשונויות של שני המדגמים הן שוות ולא ידועות.
מבחן t עבור שני מדגמים תלויים - בודק האם יש הבדלים בממוצעים של שני מדגמים מזווגים.
ניתוח שונות חד כיווני - בודק האם יש הבדלים בממוצעים של יותר משתי קבוצות בלתי תלויות. על מנת לבחון היכן קיימים ההבדלים משתמשים בניתוח של השוואות מרובות.
ניתוח שונות דו כיווני - בודק את השפעה הנפרדת של שני משתנים בלתי תלויים (האפקטים העיקריים) ואת השפעתם ההדדית (האינטראקציה) על המשתנה התלוי.

מקדם המתאם

המתאם בודק את הקשר הלינארי בין שני משתנים מסולם אורדינלי ומעלה. הערך של המתאם נע בין (1-) ל-(1). ככל שהקשר הלינארי בין המשתנים חזק יותר כך הערך של מקדם המתאם יהיה קרוב יותר לערך 1 בערכו המוחלט. הסימן של מקדם המתאם מבטא את כיוון הקשר (חיובי/שלילי).
מתאם פירסון - מקדם המתאם Pearson הוא מדד לקשר לינארי בין שני משתנים מסולם אינטרוולי או יחס.
מתאם ספירמן - מתאם Spearman הוא מדד לקשר לינארי בין שני משתנים מסולם מדידה אורדינלי.

מודל הרגרסיה

מודל הרגרסיה מבטא את היחסים בין שני משתנים (או יותר) באופן אלגברי. מודל הרגרסיה מבוסס על עקרון הריבועים הפחותים, לפיו קו הרגרסיה הוא הקו הטוב ביותר לניבוי המשתנה התלוי על פי המשתנים הבלתי תלויים במונחים של הפחתת ריבועי הסטיות של הניבוי מהערך האמיתי. בדרך כלל הרגרסיה מוצגת גרפית על דיאגרמת פיזור על ידי קו הרגרסיה.
The Full Model - מודל רגרסיה אשר כולל את כל המשתנים הבלתי תלויים
Hierarchical Regression - החוקר מכניס למודל את המשתנים הבלתי תלויים בשלבים בהתאם להנחות התאורטיות.
Stepwise Regression -Step up &Step down - הכנסת משתנים בלתי תלויים למודל הרגרסיה על פי הנחות סטטיסטיות.
ריבוע המתאם הלינארי - מדד לטיב המודל (מידת פיזור התצפיות סביב קו הרגרסיה). ריבוע המתאם הלינארי מבוטא כאחוז השונות של המשתנה התלוי המוסברת על ידי מודל הרגרסיה.
רגרסיה לוגיסטית - מודל של רגרסיה שבו המשתנה התלוי הוא דיכוטומי או קטגוריאלי והמשתנים הבלתי תלויים הם רציפים או קטגוריאליים.
משתני דמה - כאשר מעוניינים להשוות במודל הרגרסיה בין קבוצות המוגדרות על פי משתנים קטגוריאליים, יוצרים משתני דמה אשר מבטאים את הרמות של המשתנים המקוריים.

מבחנים א-פרמטריים

כאשר המשתנים הם כמותיים בדידים או מסולם סדר או אינם מתפלגים נורמלית, משתמשים במבחנים א-פרמטרים על מנת להסיק מסקנות על האוכלוסייה מהמדגם.
מבחן חי בריבוע - מבחן חי בריבוע בוחן האם התפלגות השכיחויות הנה מקרית. משתמשים במבחן חי בריבוע כאשר המשתנה התלוי והמשתנה הבלתי תלוי הם נומינליים.
מבחן חי בריבוע לטיב התאמה - בוחן האם השכיחות הצפויה במשתנה אחד מתאימה לשכיחות הנצפית, על מנת לבדוק האם התפלגות השכיחויות במדגם שווה להתפלגות השכיחויות באוכלוסיה.
מבחן חי בריבוע לאי תלות - בוחן האם השכיחות הצפויה מתאימה לשכיחות הנצפית, על מנת לבדוק האם קיים קשר בין שני משתנים נומינליים.
מבחן מאן-וויטני - השוואה בין שני מדגמים בלתי תלויים מסולם סדר.
מבחן ווילקוקסון - השוואה בין שני מדגמים תלויים כאשר הנתונים כמותיים רציפים ואי אפשר להניח התפלגות נורמלית.
מבחן קרוסקל-וולאס Test - בודק האם יש הבדל בין K מדגמים בלתי תלויים (k>2).
מבחן פרידמן - בודק האם יש הבדל בין K מדגמים תלויים (k>2).
מבחן הבינום - בוחן מהי מה ההסתברות שמדגם לקוח מתוך אוכלוסייה דיכוטומית. מבחן הבינום משווה את המדגם להתפלגות צפוייה באוכלוסיה בעלת שתי קבוצות.

ניתוח גורמים

טכניקות סטטיסטיות שמטרתן לבצע רדוקציה מסדרה של משתנים למספר קטן של גורמים (משתנים לטנטיים).

ניתוח אשכולות

טכניקה מתמטית המבוססת על אלגוריתמים שמטרתה לזהות קבוצות של משתנים (או מקרים). הפרוצדורה של ניתוח אשכולות משמשת את החוקר כאשר אין לו השערות תאורטיות א-פריוריות לגבי קבוצות המשתנים (או המקרים) במחקר.

מהימנות

מידת עקביות המדידה (היציבות) של כלי המחקר. מדידה מהימנה היא מדידה ללא טעויות. שיטות לבדיקת מהימנות: מבחן חוזר; מבחנים מקבילים; מבחן חצוי; אלפא של קרונבך; מהימנות בין שופטים.

תקפות

מתייחסת לשאלה האם כלי המחקר אכן מודד את המשתנה שהוא אמור למדוד.