ממוצע משוקלל, הסתברות, תוחלת ועקומים בעלי רוחב קבוע

(לפי הרוזן בופון והרצאה של פרופ’ גיל קלעי)

הקדמה: ממוצע משוקלל, תוחלת

כולנו יודעים מהו ממוצע (חשבוני): נתונים \({n}\) מספרים \({a_1,a_2,\ldots,a_n}\), אז הממוצע שלהם יהיה

\(\displaystyle \mu:=\frac1n(a_1+a_2+\ldots a_n).\)

אבל אנו יכולים לקחת כל \({a_i}\) כמה פעמים: את \({a_1}\), \({k_1}\) פעמים, את \({a_2}\), \({k_2}\) פעמים, וכן הלאה, כאשר את מספר הפעמים הכולל \({k_1+k_2+\ldots+k_n}\) נסמן ב-\({N}\). אז, כמו שנוכחים מייד, הממוצע יהיה:

\(\displaystyle \mu:=\frac{k_1}N a_1+\frac{k_2}N a_2+\ldots+\frac{k_n}N a_n.\)

כלומר ה-\({a_i}\)-ים מוכפלים במקדמים – משקלות – \({\frac{k_i}N}\), ושימו לב שהמשקלות הם מספרים (במקרה זה, שברים) השייכים לקטע \({[0,1]}\), וסכומם הוא

\(\displaystyle \frac{k_1}N+\frac{k_2}N+\ldots+\frac{k_n}N=1.\)

זה מביא אותנו לממוצע משוקלל. יש לנו \({n}\) משקלות, שהם \({n}\) מספרים אישליליים (לאו דווקא רציונליים) \({\omega_1,\omega_2,\ldots,\omega_n}\) שסכומם \({1}\), והממוצע המשוקלל לגבי משקלות אלה יוגדר כ:

\(\displaystyle \mu:=\omega_1 a_1+\omega_2 a_2+\ldots+\omega_n a_n. \ \ \ \ \ (1)\)

לזה יש פירוש הסתברותי: נניח שיש לנו \({n}\) אפשרויות, שאנו ממספרים אותן ב \({1,2,\ldots,n}\), כך שלאפשרות \({1}\) יש הסתברות \({\omega_1}\) , לאפשרות \({2}\) יש הסתברות \({\omega_2}\) , וכן הלאה (וכאן חשוב מאוד שהינחנו שסכום ה\({\omega}\)’ים הוא \({1}\)!). נניח שעשינו מדידה, שבאפשרות ה-\({i}\) תיתן תוצאה \({a_i}\), עבור \({i=1,\ldots,n}\). כלומר: אם נעשה את המדידה, תתגשם אחת התוצאות \({i}\), ואז תוצאת המדידה תהיה \({a_i}\). אז לממוצע המשוקלל (1) קוראים התוחלת של תוצאת המדידה.\({^1}\)

דוגמה: נזרוק קוביה הוגנת, וה”מדידה” \({a_i}\) סופרת את המספר שיצא. כאן מספר האפשרויות \({n}\) הוא \({6}\), ואם הקוביה אכן הוגנת אז כל ההסתברויות \({\omega_i}\) , \({i=1,\ldots,6}\) שוות ל \({1/6}\), והתוחלת היא \({\frac16(1+2+3+4+5+6)=3.5}\). (כאן התוחלת בכלל אינה תוצאה שיכולה להתקבל!).

הערה 1: מדוע קוראים לזה “תוחלת”? סיבה מרכזית לכך שרואים ביטוי זה (1) כ”תוחלת” – הערך שהכי ראוי לצפות לו – הוא עובדה שנקראת משפט המספרים הגדולים. היא אומרת שאם נסכם (או נמצע) הרבה מדידות אקראיות בלתי-תלויות אז הסכום, (או הממוצע) של המדידות, שתמיד התוחלת שלו היא סכום (או ממוצע) התוחלות, ייתן בכלל, כמעט בוודאות, תוצאה קרובה מאוד לתוחלת שלו.

דוגמא: זורקים קוביה הוגנת, ונקבע ערך \({1}\) למדידה אם הקוביה נפלה על \({1}\), וערך \({0}\) אחרת. אז התוחלת תהיה שווה ל-\({1/6}\) (מדוע?). בהתאם למשפט המספרים הגדולים, אם נזרוק קוביה הוגנת, באופן בלתי תלוי, מספר גדול \({N}\) של פעמים, יהיה הסכום של תוצאות ה”מדידה” שלנו, השווה למספר הפעמים שיצא \({1}\) (מדוע?), כמעט בוודאות קרוב לתוחלת שלו, שהיא סכום התוחלות \({(1/6)N}\).

מהדוגמה האחרונה אנו רואים שאת ההסתברות של מאורע \({E}\) נוכל לתאר כתוחלת של ה”מדידה” שמוגדרת כנותנת \({1}\) אם \({E}\) קרה ו-\({0}\) אם \({E}\) לא קרה. חוק המספרים הגדולים ייתרגם אז לתכונה הבסיסית של הסתברות: שההסתברות של \({E}\) היא, כמעט בוודאות, קרובה מאוד לשכיחות של התקיימות \({E}\) בסדרת הרבה חזרות בלתי תלויות על ה”ניסוי”.

מערכת “אינסופית”. עד עכשיו היה לנו ממוצע משוקלל, במלים אחרות, תוחלת, של מספר סופי של תוצאות \({a_i}\), אבל ניתן להגדיר אותו גם כאשר יש אינסוף תוצאות – למשל סידרה אינסופית \({a_i,i=1,2,\ldots}\) או מערכת התלויה בפרמטר רציף כגון \({a(x)}\) או \({a(x,y)}\). אפשר לתת הגדרות מדוייקות – במקום סכום יבוא סכום טור או אינטגרל – ותמיד אפשר להיעזר בסימטריות הקיימות במערכת.

למשל, מהסימטריה נובע שהתוחלת של גובה נקודה בכדור מלא, (או רק בפני הכדור), היא גובה מרכז הכדור! (ומה בדבר נקודה על מעגל או עיגול במישור או נקודה על מעגל או עיגול במרחב?).

כאשר נדון בהמשך במערכות “אינסופיות” כאלה, נסתמך על האינטואיציה, למרות שיש דרכים סטנדרטיות לעשות הכל בדיוק מלא.

הערה 2. בכל מקרה, ברור שמתקיימים משפטים כמו: אם המדידה “קבועה”, כלומר ערכה בהכרח קבוע \({a}\), אזי גם התוחלת היא \({a}\); אם שתי מדידות \({a_i}\) ו \({b_i}\) על אותו מרחב הסתברות מקיימות: בהכרח \({a_i\le b_i}\), אז התוחלת של \({a_i}\) קטנה או שווה מזו של \({b_i}\). מתקיים עוד: התוחלת של סכום “מדידות” היא סכום התוחלות אבל זה לא נכון לגבי מכפלות!, (נסו למצוא דוגמה נגדית) – עם זאת, זה נכון אם אחת הנכפלות היא קבוע: התוחלת של כפל “מדידה” \({a_i}\) בקבוע \({K}\) היא \({K}\) כפול התוחלת של \({a_i}\).

אורך עקומים כתוחלת, עקומים קמורים בעלי רוחב קבוע

תהי \({D}\) מערכת ישרים מקבילים במישור במרחקים שווים \({d}\). נזיז ונסובב את \({D}\) “באופן אקראי”, ונקבל מערכות אחרות \({D’}\) של ישרים מקבילים, למעשה נקבל את כל המערכות האפשריות של מערכות ישרים מקבילים במישור עם מרחק \({d}\) ביניהם. באופן אינטואיטיבי נראה שבקבוצת כל המערכות \({D’}\) האלה, שנסמן אותה ב-\({\mathbf{D}}\), יש משמעות (מוגדרת באופן יחיד!) להסתברות שהיא אינווריאנטית לגבי הזזות וסיבובים (זה קשור לכך שבאופן הסתכלותי \({\mathbf{D}}\) היא חסומה – נמצאת בתחום מוגבל, כי אם נסובב ונזיז את \({D}\) למרחק גדול נוכל לקבל אותה \({D’}\) ע”י סיבוב והזזה למרחק “קרוב”). למשל ההסתברות שכיוון הישרים ב \({D’}\) יהיה ברביע הראשון והשלישי היא \({1/2}\). ההסתברות ש \({D’}\) יוצאת מקבילה לציר \({y}\) היא \({0}\). ההסתברות ש \({D’}\) עוברת דרך הראשית גם היא \({0}\), וכן הלאה.

כעת יהא נתון עקום או מערכת עקומים \({c}\), ונסמן ב \({\lambda(c)}\) את התוחלת של מספר נקודות החיתוך של \({c}\) עם מערכת המקבילים המשתנה (במלים אחרות, אקראית) \({D’}\). נראה כמה תכונות של \({\lambda(c)}\) (את ה”הוכחות”, או אינטואיטיביות או לא קשות, נשאיר לקוראים/ות).

1

תכונה 1. אם מזיזים או מסובבים את \({c}\), \({\lambda(c)}\) לא משתנה.

תכונה 2. אם \({c}\) היא נקודה אחת או קבוצה סופית של נקודות אזי \({\lambda(c)=0}\).

תכונה 3. אם \({c’}\) מכילה את \({c}\), אזי \({\lambda(c’)\ge\lambda(c)}\). במילים אחרות: \({\lambda}\) מונוטונית עולה.

תכונה 4. עבור \({c_1}\) ו- \({c_2}\) כלשהם,

\(\displaystyle \lambda(c_1\cup c_2)=\lambda(c_1)+\lambda(c_2)-\lambda(c_1\cap c_2),\)

(כי שוויון כזה נכון לגבי מספרי נקודות החיתוך עם כל \({D’}\) שניקח, בידקו!)

ובמיוחד אם \({c_1\cap c_2}\) היא קבוצה סופית אז לפי תכונה 2. \({\lambda(c_1\cup c_2)=\lambda(c_1)+\lambda(c_2)}\).

תכונה 5. ניקח במיוחד \({c_a}\) \({=}\) קטע באורך \({a}\). לפי תכונה 1. \({\lambda}\) של קטע כזה תלויה רק באורכו \({a}\) ולא במקומו. לפי תכונה 4. \({\lambda(c_{a+b})=\lambda(c_a)+\lambda(c_b)}\). כלומר \({\lambda(c_a)}\) היא פונקציה אדיטיבית של \({a}\) ( \({a}\) משתנה כאן על המספרים האי-שליליים). לפי תכונה 3. \({\lambda(c_a)}\) היא פונקציה מונוטונית עולה של \({a}\). כידוע, פונקציה אדיטיבית ומונוטונית כזו חייבת להיות מהצורה \({Ka}\) כאשר \({K}\) קבוע. כלומר קיים קבוע \({K}\) כך ש \({\lambda}\) של קטע באורך \({a}\) הוא \({Ka}\).

תכונה 6. אם \({c}\) קו שבור, נוכל להרכיב אותו מקטעים ולהשתמש בתכונה 4. מקבלים שגם עבור קו שבור \({c}\), \({\lambda(c)}\) \({=}\) \({K}\) כפול אורכו של \({c}\).

תכונה 7. אנו רוצים, כמובן, לקבל אותה טענה כמו 6. עבור \({c}\) קו עקום. נניח ש \({c}\) לא “משתולל” – שהוא לא “פרקטלי” כמו, למשל, פתית השלג של קוך. נניח שהוא קו חלק עם, אולי, מספר סופי של פינות (אם כותבים הוכחה מדוייקת, מה שאנו לא ממש נעשה, מגדירים במדוייק מה דורשים מ-\({c}\)). ניקח ב-\({c}\) סדרות של נקודות, והן יהיו קודקודי קווים שבורים \({c’}\) החסומים ב-\({c}\), וניקח סידרת \({c’_n}\)-ים כאלה עם מרחקים בין קודקודים סמוכים ב-\({c’_n}\) שואפים ל-\({0}\) כאשר \({n\rightarrow\infty}\).

1

אורכי \({c’_n}\) שואפים לאורכו של \({c}\). מצד שני נראה באופן הסתכלותי שכאשר \({n}\) גדול צריך להיות למערכת המקבילים \({D’}\) “מזל מיוחד” – שהיא תצא כמעט משיקה ל-\({c}\) באיזשהו מקום – כדי שמספר נקודות החיתוך של \({D’}\) עם \({c’_n}\) לא יהיה שווה למספר נקודות החיתוך של \({D’}\) עם \({c}\). וגם אם קורה “מזל מיוחד” זה אז מספרי נקודות החיתוך לא שונים בהרבה זה מזה. כלומר מספרי נקודות החיתוך של \({c’_n}\) ו-\({c}\) עם \({D’}\) האקראי הם כמעט בוודאות שווים, ובמקרה הנדיר שהם שונים ההבדל ביניהם אינו ענקי. במקרה כזה גם התוחלות \({\lambda(c’_n)}\) ו \({\lambda(c)}\) צריכות להיות קרובות מאוד, יותר ויותר כאשר \({n\rightarrow\infty}\), במלים אחרות, \({\lambda(c’_n)\rightarrow\lambda(c)}\). ועכשיו, \({\lambda(c’_n)}\) \({=}\) \({K}\) כפול אורכו של \({c’_n}\), וכאשר \({n\rightarrow\infty}\), \({\lambda(c’_n)\rightarrow\lambda(c)}\) ואורכו של \({c’_n}\) שואף לאורכו של \({c}\), ומכאן מקבלים ש \({\lambda(c)}\) \({=}\) \({K}\) כפול אורכו של \({c}\).

הערה 3. שימו לב לעובדה הדי מפתיעה, שבתכונות 1. – 7. לא השתמשנו בכך ש \({D}\) היא דווקא מערכת קווים מקבילים – הן יישארו נכונות, עם אותן הוכחות, אם ניקח כ- \({D}\) “גלים”, אפילו גלים שבורים (ראו בציור), וניקח כ \({\mathbf{D}}\) את כל ההזזות והסיבובים של \({D}\). זה בתנאי רק שיש ל \({D}\) מחזוריות בשני כיוונים שונים, מה שיבטיח ש \({\mathbf{D}}\) “חסומה” ואז יש בה הסתברות אינווריאנטית לגבי סיבובים והזזות. אלא רק שלכל \({D}\) יהיה קבוע \({K=K(D)}\) אחר. נשאיר כתרגיל לקוראים/ות לחקור את אופי התלות של \({K(D)}\) ב-\({D}\).

3

אבל נחזור ל \({D}\) – מערכת קווים מקבילים במרחק \({d}\). האם נוכל לחשב את \({K}\)?

ניקח כ-\({c}\) מעגל בקוטר \({d}\). אז מספר נקודות החיתוך הוא תמיד \({2}\)! לכן התוחלת שלו \({\lambda(c)}\) היא בוודאי \({2}\), וזה שווה ל \({K}\) כפול אורכו-הקפו של \({c}\), שהוא \({\pi d}\). מכאן \({K=\dfrac2{\pi d}}\).

ולבסוף קיבלנו,

משפט 1. התוחלת של מספר נקודות החיתוך של מערכת קווים מקבילים בעלי מרחק \({d}\) במיקום “אקראי”, עם עקום או מערכת עקומים \({c}\), היא \({\dfrac2{\pi d}}\) כפול אורכו של \({c}\).

ומקבלים מסקנה לגבי עקומים קמורים \({c}\) בעלי רוחב קבוע – כלומר בעלי התכונה שהמרחק \({d}\) בין שני קווים מקבילים החוסמים את \({c}\) לא תלוי בכיוון שלהם, במילים אחרות, שאורך ההטלה של \({c}\) על מסך ישר לא תלוי בכיוון המסך. המעגל הוא בעל רוחב קבוע, אבל יש הרבה אחרים – ראו בציור. למעשה, בהרבה מקרים קשת עקומה קמורה שהמשיקים בקצותיה מקבילים במרחק \({d}\) אפשר להשלים לעקום בעל רוחב קבוע \({d}\), ע”י העברת מקבילים במרחק \({d}\) לכל המשיקים לקשת ולקיחת העקומה העוטפת שלהם.

4

וכעת, לכל עקום בעל רוחב קבוע \({d}\) יש אותה תכונה כמו המעגל, שמספר נקודות החיתוך עם \({D’}\) הוא תמיד \({2}\)! מכאן וממשפט 1. נובע מייד:

משפט 2. כל עקום קמור בעל רוחב קבוע \({d}\) הוא בעל אותו הקף \({\pi d}\) כמו מעגל בקוטר \({d}\).

וריאציות

וריאציה 1

נחליף את \({D}\) בסריג במישור, למשל קבוצת הנקודות \({(x,y)}\) עם \({x}\) ו \({y}\) שלמים. כמו קודם, \({\mathbf{D}}\) היא קבוצת כל ההזזות וסיבובים האקראיים \({D’}\) של \({D}\). כ- \({c}\) כדאי כעת לקחת תחום, למשל מצולע מלא (מדוע?). בדיוק כמו קודם, מקבלים שהתוחלת של מספר נקודות החיתוך של \({c}\) עם \({D’}\) היא קבוע כפול שיטחו של \({c}\).

5

וריאציה 2.

במרחב, התוחלת של מספר נקודות החיתוך של מערכת מישורים מקבילים במרחק \({d}\) במיקום אקראי עם עקום מרחבי (או מערכת עקומים), היא קבוע כפול אורך העקום.

וריאציה 3.

במרחב, התוחלת של מספר נקודות החיתוך של הזזה-סיבוב אקראית של סריג מסויים של קווים מקבילים עם משטח (או מערכת משטחים), היא קבוע כפול שטח הפנים של המשטח.

וריאציה 4.

ובישר, התוחלת של מספר נקודות החיתוך של הזזה אקראית של קבוצת הכפולות של \({d}\), עם קבוצה קבועה \({c}\), היא קבוע כפול אורכה של \({c}\). הקבוע שווה ל \({1/d}\), כמו שרואים אם ניקח \({c}\) \({=}\) קטע באורך \({d}\).

מכאן שבמישור, התוחלת של מספר נקודות החיתוך של עקום קמור \({c}\) עם מערכות אקראית של קווים מקבילים במרחק \({d}\) שהם בכיוון מסויים קבוע \({\vec{v}}\) \({=}\) \({2}\) \({\times}\) התוחלת של מספר נקודות החיתוך של הזזה אקראית של קבוצת הכפולות של \({d}\) עם ההטלה של \({c}\) על “מסך” מאונך ל-\({\vec{v}}\) \({=}\) \({2/d}\) \({\times}\) האורך של ההטלה. מכאן וממשפט 1. מקבלים הכללה של משפט 2:

משפט 3. התוחלת של אורך ההטלה של עקום קמור \({c}\) על ישר בכיוון אקראי היא \({1/\pi}\) כפול הקפו של \({c}\).

וריאציה 5.

נעשה דבר דומה לוריאציוה 4, אבל במרחב.

התוחלת של מספר נקודות החיתוך של משטח קמור קבוע \({c}\) עם סריג קווים מקבילים אקראי בכיוון מסויים \({\vec{v}}\) \({=}\) \({2}\) \({\times}\) התוחלת במישור של מספר נקודות החיתוך, עם ההטלה של \({c}\) על “מסך” מאונך ל-\({\vec{v}}\), של הזזה או סיבוב של הסריג המתאים (שהוא החיתוך של הקווים המקבילים עם מישור מאונך להם), וזה שווה, לפי וריאציה \({1}\), לקבוע כפול השטח של ההטלה.

מכאן ומוריאציה 3. מקבלים במרחב, שהתוחלת של השטח של ההטלה של משטח קמור על מישור בכיוון אקראי, היא קבוע כפול שיטחו של \({c}\).

את ערך הקבוע נמצא בעזרת המקרה \({c}\) \({=}\) פני כדור ברדיוס \({r}\). אז שטח ההטלה הוא תמיד \({\pi r^2}\) ושטח הכדור הוא \({4\pi r^2}\). לכן הקבוע הוא \({1/4}\), וקיבלנו,

משפט 4. התוחלת של השטח של ההטלה של משטח קמור \({c}\) על מישור בכיוון אקראי, היא \({1/4}\) שיטחו של \({c}\).

הערות לסיכום ותודות; הפרדוקס של ברטרן

מאמר זה חייב תודה, קודם כל, למדען הצרפתי מהמאה ה-\({18}\) בופון, שהוענק לו תואר רוזן \({(Comte  de  Buffon, 1707-1788)}\) , שהציג את שאלתו המפורסמת הבאה:

נתונים קווים מקבילים במישור במרחקים \({d}\). מפילים באקראי מחט באורך \({a}\),\({(a<d)}\). מה ההסתברות שהמחט תחתוך את אחד הקווים.

בהתאם למשפט 1, התשובה היא

\(\displaystyle \dfrac{2a}{\pi d}.\)

(אין הבדל בתוצאה אם “מפילים” מחט אקראית על מערכת קווים מקבילים קבועה או מערכת קווים מקבילים אקראית על מחט קבועה!)

במאה ה-\({19}\) השתמשו בנוסחה זו לקבוע באופן ניסיוני את ערכו של \({\pi}\) עד דיוק של מספר ספרות אחרי הנקודה!

ותודה גם לפרופ’ גיל קלעי מהאוניברסיטה העברית, שמהרצאה שלו בטכניון למדתי איך מוכיחים שלכל העקומים הקמורים בעלי רוחב קבוע \({d}\) יש אותו היקף \({\pi d}\), כמו שהובא לעיל.

ולסיום אזהרה:

אנו עסקנו במה שלפעמים קוראים “הסתברות גיאומטרית”. אצלנו ההסתברות נקבעה באופן יחיד ע”י דרישת האינווריאנטיות לגבי הזזות וסיבובים. אבל אם אין אינווריאנטיות ברורה כזו, יכולים ליפול בפח, כמו שמראה הדוגמה המפורסמת הבאה של המתמטיקאי הצרפתי ברטרן \({(Joseph  Bertrand, 1822-1900)}\).

פרדוקס ברטרן.

6

נתון מעגל \({\Gamma}\) בעל רדיוס \({R}\). מה ההסתברות שמיתר אקראי \({c}\) ב-\({\Gamma}\) יהיה יותר ארוך מצלע המשולש שווה הצלעות החסום ב \({\Gamma}\)?

“פיתרון” 1. למיתר יש מרחק מהמרכז, שמשתנה על הקטע \({[0,R]}\). המיתר יקיים את התנאי אם המרחק שייך ל- \({[0,\frac12 R]}\). לכן התשובה היא \({1/2}\).

“פיתרון” 2. המיתר נקבע ע”י קשת המעגל שהוא פורש. הזווית המרכזית של קשת זו משתנה על הקטע \({[0,\pi]}\). המיתר יקיים את התנאי אם הזווית המרכזית של הקשת שייכת ל- \({[\frac23\pi,\pi]}\). לכן התשובה היא \({1/3}\).

“פיתרון” 3. מיתר נקבע ע”י האמצע שלו, שמשתנה על העיגול של \({\Gamma}\). המיתר יקיים את התנאי אם האמצע שלו נמצא בעיגול עם אותו מרכז כמו \({\Gamma}\) וחצי הרדיוס, ששיטחו, כמובן, רבע שטח \({\Gamma}\). לכן התשובה היא \({1/4}\).

למעשה חושבו כאן הסתברויות לגבי “מידות הסתברות” שונות (בקבוצת המיתרים). כולן אינווריאנטיות לגבי סיבוב המעגל, אבל מאחר שחבורת הסיבובים לא “טרנזיטיבית” – לא כל שני מיתרים מועתקים זה לזה ע”י סיבוב – אינווריאנטיות זו לא מספיקה כדי לקבוע את “המידה הההסתברותית” באופן יחיד.


\({^1}\) המונח הטכני ל”מדידה” אקראית כזו הוא: “משתנה סטוכסטי“, או “משתנה אקראי“.

תגובה אחת על ממוצע משוקלל, הסתברות, תוחלת ועקומים בעלי רוחב קבוע

  • מאת אליהו לוי‏:

    כדי שהקוראים/ות לא יהיו אופטימיים מדי, כדאי להזכיר עובדה בסיסית בהסתברות – אם עושים N ניסויים בלתי תלויים, השגיאה היחסית שיש לצפות לה (“סטיית התקן”) היא מסדר גודל של 1 חלקי שורש N. לכן אם רוצים למצוא את פיי בשיטה הנסיונית שהוזכרה במאמר – זריקות אקראיות של מחט על קווים מקבילים א-לה הרוזן בופון, אז 10000 זריקות יתנו בדרך כלל שגיאה של כ- 0.01, בשביל לקבל שגיאה של כ- 0.001 יש לבצע כמיליון זריקות, וכו’