[Xác Suất] Biến ngẫu nhiên và phân phối xác suất

Trong phần trước ta đã có khái niệm rất cơ bản về phép thử, sự kiện, những đặc thù của biến cố và cách tính Tỷ Lệ của chúng. Trong phần này, ta sẽ tập trung chuyên sâu vào những biến cố nhận giá trị ngẫu nhiên và quy mô phân phối Xác Suất của chúng .

Mục lục

1. Biến ngẫu nhiên

Biến ngẫu nhiên ( random variables ) là những biến nhận 1 giá trị ngẫu nhiên đại diện thay mặt cho hiệu quả của phép thử. Mỗi giá trị nhận được USD x USD của biến ngẫu nhiên USD X USD được gọi là một biểu lộ của USD X USD, đây cũng là tác dụng của phép thử hay còn được hiểu là một sự kiện .Gọi tên là một biến có vẻ như hơi kì kì một chút ít bởi biến ngẫu nhiên thực ra là một hàm ánh xạ từ khoảng trống sự kiện rất đầy đủ tới 1 số thực : USD X : \ Omega \ mapsto \ mathbb { R } USD .

Biến ngẫu nhiên có 2 dạng:

  • Rời rạc (discrete): tập giá trị nó là rời rạc, tức là đếm được. Ví dụ như mặt chấm của con xúc xắc.
  • Liên tục (continous): tập giá trị là liên tục tức là lấp đầy 1 khoảng trục số. Ví dụ như giá thuê nhà ở Hà Nội.

2. Phân phối xác suất

Là giải pháp xác lập Xác Suất của biến ngẫu nhiên được phân phối ra làm sao. Có 2 cách để xác lập phân bổ này là dựa vào bảng phân bổ xác xuất và hàm phân phối Phần Trăm. Ở đây, tôi chỉ đề cập tới giải pháp hàm phân bổ Tỷ Lệ. Hàm phân phối Phần Trăm của biến ngẫu nhiên USD X USD được xác lập như sau :USD USD F_X ( x ) = P ( X \ le x ) ~ ~ ~, x \ in \ mathbb { R } USD USD

Hàm phân phối xác suất còn có tên là hàm phân phối tích luỹ (CDF – Cumulative Distribution Function) do đặc trưng là lấy xác suất của các biến ngẫu nhiên bên trái của một giá trị $x$ bất kì nào đó. Hàm này có đặc điểm là một hàm không giảm, tức là nếu $a

2.1. Hàm khối xác suất của biến rời rạc

Với những biến ngẫu nhiên ta còn chăm sóc xem Xác Suất tại mỗi tại 1 giá trị USD x USD nào đó trong miền giá trị của nó là bao nhiêu, hàm Xác Suất như vậy so với biến ngẫu nhiên rời rạc được gọi là hàm khối Xác Suất ( PMF – Probability Mass Function ). Giả sử miền xác lập của USD X USD là USD D USD, tức USD X : \ Omega \ mapsto \ mathsf D USD thì hàm khối Xác Suất được xác lập như sau : USD USD p ( x ) = p_X ( x ) = \ begin { cases } P ( X = x ) và \ text { if } x \ in \ mathsf D \ cr 0 và \ text { if } x \ notin \ mathsf D \ end { cases } USD USDNhư vậy ta hoàn toàn có thể thấy rằng hàm khối Tỷ Lệ thực ra cũng là một Phần Trăm nên nó mang khá đầy đủ tổng thể những đặc thù của Tỷ Lệ như :

  • $0 \le p(x) \le 1 $
  • $\displaystyle\sum_{x_i \in \mathsf D}p(x_i)=1$

Ví dụ, ta có hàm phân phối Phần Trăm như sau : USD USD p ( x ) = \ begin { cases } \ frac { x } { 36 } và \ text { if } x \ in \ mathbb R, 0 \ le x \ le 6 \ cr \ frac { 12 – x } { 36 } và \ text { if } x \ in \ mathbb R, x \ ge 7 \ cr 0 và \ text { else } \ end { cases } USD USD thì ta hoàn toàn có thể trình diễn bằng biểu đồ phân phối như sau :Hàm phân phối tích luỹ USD F USD của biến ngẫu nhiên rời rạc hoàn toàn có thể được màn biểu diễn qua hàm khối Xác Suất bằng cách lấy tổng : USD USD F_X ( x ) = \ sum_ { \ text { all } x_i \ le x } p ( x_i ) ~ ~ ~, x \ in \ mathbb { R } USD USD Lúc này, hàm phân phối tích luỹ sẽ có dạng bậc thang ứng với mỗi bậc là khoảng chừng USD ( x_i, x_ { i + 1 } ) USD. Ví dụ hàm phân phối tích luỹ của ví dụ trên sẽ có dạng như sau : USD USD F ( x ) = \ begin { cases } 0 và \ text { if } x < 1 \ cr { 1 } / { 36 } và \ text { if } 1 \ le x < 2 \ cr { 3 } / { 36 } và \ text { if } 2 \ le x < 3 \ cr { 6 } / { 36 } và \ text { if } 3 \ le x < 4 \ cr { 10 } / { 36 } và \ text { if } 4 \ le x < 5 \ cr { 15 } / { 36 } và \ text { if } 5 \ le x < 6 \ cr { 21 } / { 36 } và \ text { if } 6 \ le x < 7 \ cr \ text { so on … } \ end { cases } USD USD và biểu đồ tương ứng là :

2.2. Hàm mật độ xác suất của biến liên tục

Với những biến ngẫu nhiên liên tục ta có khái niệm hàm tỷ lệ Phần Trăm ( PDF – Probability Density Function ) để ước đạt độ tập trung chuyên sâu Xác Suất tại lân cận điểm nào đó. Hàm tỷ lệ Xác Suất USD f ( x ) USD tại điểm USD x USD được xác lập bằng cách lấy đạo hàm của hàm phân phối tích luỹ USD F ( x ) USD tại điểm đó : USD USD f ( x ) = F ^ { \ prime } ( x ) USD USDNhư vậy thì nơi nào USD f ( x ) USD càng lớn thì ở đó mức độ tập Phần Trăm càng cao. Từ đây ta cũng hoàn toàn có thể màn biểu diễn hàm phân phối tích luỹ như sau : USD USD F ( x ) = \ int_ { – \ infty } ^ xf ( t ) dt USD USDXác suất trong 1 khoảng chừng USD ( \ alpha, \ beta ) USD cũng hoàn toàn có thể được tính bằng hàm tỷ lệ Tỷ Lệ : USD USD P ( \ alpha \ le X \ le \ beta ) = \ int_ \ alpha ^ \ beta f ( x ) dx USD USDHàm tỷ lệ Tỷ Lệ cũng có 2 đặc thù như Phần Trăm như sau :

  • Không âm: $f(x) \ge 0 ~~~, \forall x \in \mathbb{R}$
  • Tổng toàn miền bằng 1: $\int_{-\infty}^\infty f(x)dx = 1$

Ví dụ, thời hạn tính bằng đơn vị chức năng giờ mà một máy tính hoạt động giải trí trước khi xảy ra lỗi được coi như một biến ngẫu nhiên liên tục và được xác lập với hàm tỷ lệ Tỷ Lệ sau : USD USD f ( x ) = \ begin { cases } \ lambda e ^ { { – x } / { 100 } } và \ text { if } x \ ge 0 \ cr 0 và \ text { else } \ end { cases } USD USD Hãy tính Tỷ Lệ của :

  • (a) Một máy tính hoạt động từ 50 giờ tới 150 giờ trước khi xảy ra lỗi?
  • (b) Một máy tính hoạt động dưới 100 giờ trước khi xảy ra lỗi?

Vì tổng Tỷ Lệ toàn miền là 1 nên : USD USD \ begin { aligned } và \ int_ { – \ infty } ^ \ infty f ( x ) dx = 1 \ cr \ iff và \ int_ { – \ infty } ^ \ infty \ lambda e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và \ lambda \ int_ { – \ infty } ^ \ infty e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và \ lambda \ int_0 ^ \ infty e ^ { { – x } / { 100 } } dx = 1 \ cr \ iff và – \ lambda ( 100 ) e ^ { { – x } / { 100 } } \ Big | _0 ^ \ infty = 1 \ cr \ iff và 100 \ lambda = 1 \ cr \ iff và \ lambda = \ frac { 1 } { 100 } \ end { aligned } USD USD

(a) Xác suất để 1 máy tính hoạt động được trong khoảng (50, 150) giờ là:
$$
\begin{aligned}
P(50( b ) Xác suất để 1 máy tính hoạt động giải trí được trong vòng 100 trước khi lỗi là : USD USD \ begin { aligned } P ( X < 100 ) và = \ int_0 ^ { 100 } \ frac { 1 } { 100 } e ^ { { - x } / { 100 } } dx \ cr và = - e ^ { { - x } / { 100 } } \ Big | _0 ^ { 100 } \ cr và = 1 - e ^ { - 1 } \ cr và \ approx 0.633 \ cr \ end { aligned } USD USD Nên xê dịch 63.3 Xác Suất thời hạn một máy tính sẽ lỗi sau 100 giờ sử dụng .Ta hoàn toàn có thể trình diễn bằng đồ thị như sau :Nhìn vào biểu đồ trên ta có thấy Xác Suất ( a ) là phần diện tích quy hoạnh của hình thang cong phủ từ USD 50 < x < 150 USD, còn Xác Suất ( b ) là phần diện tích quy hoạnh hình thang cong phủ tới USD x < 100 USD. USD x USD càng lớn thì USD f ( x ) USD cũng càng bé đi nên phần phần diện tích quy hoạnh của nó càng hẹp dần đồng nghĩa tương quan với tỷ lệ Phần Trăm cũng giảm dần nên Phần Trăm để máy tính hoạt động giải trí được ngày càng thấp đi .Lưu ý rằng khác với hàm Tỷ Lệ, hàm tỷ lệ Xác Suất tại 1 điểm bất kể luôn bằng 0. USD USD P ( X = x ) = \ int_x ^ xf ( t ) dt = 0 USD USDNgoài ra, giá trị của hàm tỷ lệ Phần Trăm USD f ( x ) USD hoàn toàn có thể lớn hơn 1, miễn sao bảo vệ được rằng tổng Phần Trăm toàn miền là 1 : USD \ int_ { - \ infty } ^ \ infty f ( x ) dx = 1 USD .

4. Các đặc trưng

Qua những hàm phân phối Xác Suất ở phần 3 phía trên ta hoàn toàn có thể xác lập được Phần Trăm của một biến ngẫu nhiên và dựng được đồ thị trình diễn nó, nhưng trong trong thực tiễn ta còn phải chăm sóc tới những đặc trưng của nó như vị trí trung bình và độ phân tán ra làm sao. Trong trong thực tiễn khi tìm Xác Suất ta thường chỉ xác lập những đặc trưng này vì rất khó xác lập được hàm phân phối Phần Trăm như trên .

4.1. Kỳ vọng

Kỳ vọng ( Expectation ) của biến ngẫu nhiên là trung bình của biến ngẫu nhiên. Kỳ vọng của biến ngẫu nhiên USD X USD được kí hiệu là USD E [ X ] USD : USD USD E [ X ] = \ begin { cases } \ displaystyle \ sum_ { \ forall i } x_ip_i và \ text { if x is discrete } \ cr \ displaystyle \ int_ { – \ infty } ^ \ infty xf ( x ) dx và \ text { if x is continous } \ end { cases } USD USD

Lưu ý là trung bình của biến ngẫu nhiên ở đây là trung bình với khối lượng chứ không phải là trung bình cộng của Phần Trăm biến ngẫu nhiên .

Kỳ vọng còn được biết tới với những tên gọi khác như giá trị trung bình (Mean), giá trị trung bình có trọng lượng (Weighted Average),giá mong đợi (Expected Value) hay moment bậc một (first moment).

Kỳ vọng có 1 số ít đặc thù như sau :

  • $E(c) = c$ với $c$ là hằng số
  • $E(cX) = cE(X)$ với $c$ là hằng số
  • $E[aX+b] = aE[X]+b$ với $a, b$ là các hằng số
  • $E[X+Y] = E[X]+E[Y]$
  • $E[XY] = E[X]E[Y]$ với $X, Y$ là độc lập
  • $E[g(X)] = \begin{cases}
    \displaystyle\sum_{\forall i} g(x_i)p_X(x_i) &\text{if x is discrete} \cr
    \displaystyle\int_{-\infty}^\infty g(x)f(x)dx &\text{if x is continous}
    \end{cases}
    $

Việc chứng tỏ những đặc thù trên không khó lắm nên tôi không đề cập ở đây nữa mà chỉ lấy một số ít ví dụ đặc trưng để mình họa .Ví dụ : cho biến ngẫu nhiên rời rạc USD X USD và một hàm USD g ( X ) = X ^ n USD, hãy tìm kì vọng của USD g ( X ) USD. USD USD \ begin { aligned } E [ g ( x ) ] và = \ sum_ { \ forall i } g ( x_i ) p_X ( x_i ) \ cr \ implies E [ X ^ n ] và = \ sum_ { \ forall i } x_i ^ np_X ( x_i ) \ end { aligned } USD USD USD E [ X ^ n ] USD ở trên còn được biết tới với tên gọi moment bậc n ( nth moment ) của USD X USD .

4.2. Phương sai

Dựa vào kì vọng ta sẽ có được trung bình của biến ngẫu nhiên, tuy nhiên nó lại không cho ta thông tin về mức độ phân tán Xác Suất nên ta cần 1 chiêu thức để đo được độ phân tán đó. Một trong những giải pháp đó là phương sai ( variance ) .Phương sai $ Var ( X ) USD là trung bình của bình phương khoảng cách từ biến ngẫu nhiên USD X USD tới giá trị trung bình : USD USD Var ( X ) = E [ ( X-E [ X ] ) ^ 2 ] USD USDViệc giám sát dựa vào công thức này khá phức tạp, nên trong thực tiễn người ta thường sử dụng công thức tương tự sau : USD USD Var ( X ) = E [ X ^ 2 ] – E ^ 2 [ X ] USD USDChứng minh : USD USD \ begin { aligned } Var ( X ) và = E [ ( X-E [ X ] ) ^ 2 ] \ cr \ và = E [ X ^ 2-2 XE [ X ] + E ^ 2 [ X ] ] \ cr \ và = E [ X ^ 2 ] – E [ 2XE [ X ] ] + E [ E ^ 2 [ X ] ] ~ ~ ~, \ text { E [ X ] is constant } \ cr \ và = E [ X ^ 2 ] – 2E [ X ] E [ X ] + E ^ 2 [ X ] \ cr \ và = E [ X ^ 2 ] – 2E ^ 2 [ X ] \ end { aligned } USD USDNhư vậy ta hoàn toàn có thể thấy rằng phương sai luôn là một giá trị không âm và phương sai càng lớn thì nó biểu lộ mức độ phân tán tài liệu càng rộng hay nói cách khác mức độ không thay đổi càng nhỏ .Phương sai có một số ít đặc thù sau :

  • $Var(c) = 0$ với $c$ là hằng số
  • $Var(cX) = c^2Var(X)$ với $c$ là hằng số
  • $Var(aX+b) = a^2Var(X)$ với $a, b$ là các hằng số
  • $Var(X+Y) = Var(X)+Var(Y)$ với $X, Y$ là độc lập

4.3. Độ lệch chuẩn

Vì đơn vị của phương sai là bình phương nên việc tính để khớp với đơn vị của biến ngẫu nhiên là bất khả nên người ta đưa vào thêm khái niệm độ lệch chuẩn (SD-standard deviation) bằng căn bậc 2 của phương sai.
$$\sigma(X)=\sqrt{Var(X)}$$

Từ đây người ta cũng hoàn toàn có thể sử dụng USD \ sigma ^ 2 ( X ) USD để bộc lộ phương sai của biến ngẫu nhiên USD X USD .Lưu ý với độ lệch chuẩn ta phải lấy trị tuyệt đối của hằng số khi nhân vì độ lệch chuẩn cũng là không âm :

  • $\sigma(cX)=|c|\sigma(X)$

4.4. Điểm chuẩn

Độ lệch chuẩn cho phép ta biết được mức độ phân tán trung bình của toàn bộ tập dữ liệu nhưng lại chưa cho ta biết được mức độ phân tán của 1 điểm nào đó. Chính vì vậy ta thêm một thông số nữa để đánh giá điểm này là điểm chuẩn (SC-Standard Score).

Đặt USD \ mu USD là kì vọng và USD \ sigma USD là độ lệch chuẩn thì điểm chuẩn được tính như sau : USD USD z = \ dfrac { x – \ mu } { \ sigma } USD USDTừ công thức trên ta hoàn toàn có thể thấy rằng USD | z | USD bộc lộ cho khoảng cách từ một điểm tới điểm trung bình của theo đơn vị chức năng là độ lệch chuẩn. Khi USD z USD dương ta nói rằng điểm đó nằm phía trên điểm trung bình, còn khi USD z USD âm thì nó nằm bên dưới điểm trung bình. Như vậy dựa vào điểm chuẩn ta hoàn toàn có thể biết được rằng 1 điểm có nằm trong vùng thông dụng hay là không và nằm ở vị trí nào so với trung bình của hàng loạt tập mẫu .Điểm chuẩn còn được gọi là giá trị z ( z-value ), điểm z ( z-score ). Tôi thì hay gọi điểm này là z-score do thói quen mà thôi 🙂

4.5. Trung vị

Trung vị ( median ) là điểm chia đều Xác Suất thành 2 phần giống nhau, kí hiệu là USD med ( X ) USD : USD USD P ( X < med ( X ) ) = P ( X \ ge med ( X ) ) = 0.5 USD USDNhư vậy trung vị là nghiệm của phương trình hàm tích góp Phần Trăm : USD F_X ( x ) = 0.5 USD

4.6. Moment (mô-men)

Là khái niệm tổng quát của kì vọng và phương sai. Một moment bậc USD k USD so với USD c USD được định nghĩa như sau : USD USD m_k = E [ ( X-a ) ^ k ] USD USDNhận xét rằng :

  • Kỳ vọng là moment bậc 1 với $a=0$
  • Phương sai là moment bậc 2 với $a=E[X]$

Khi USD a = E [ X ] USD người ta thường gọi là moment quy tâm, còn USD a = 0 USD gọi là moment gốc. Vậy nên ta hoàn toàn có thể gọi kỳ vọng là moment gốc bậc 1 và phương sai là moment quy tâm bậc 2 .

5. Kết luận

Bài này đã trình diễn về một khái niệm rất quan trọng của Xác Suất thống kê là biến ngẫu nhiên – tựa như như những biến trong lập trình hoàn toàn có thể nhận một giá trị bất kỳ thuộc trường số thực .

Cùng với đó là các hàm phân phối xác suất dùng cho việc xác định xác suất của biến ngẫu nhiên như:

  • Hàm phân phối tích lũy (CDF): $F_X(x) = P(X \le x)$
  • Hàm khối xác suất cho biến rời rạc (PMF): $p(x) = P(X=x)$
  • Hàm mật độ xác suất cho biến liên tục (PDF): $f(x) = F^{\prime}(x)$

Phân phối Phần Trăm có 2 đặc trưng quan trọng là kỳ vọng ( expectation ) và phương sai ( variance ). Trong đó kỳ vọng đặc trưng cho điểm trung bình của biến ngẫu nhiên, còn phương sai biểu lộ cho mức độ phân tán phân phối quanh điểm trung bình đó. Phương sai càng lớn thì mức độ phân tán phân phối hay độ bất định của biến ngẫu nhiên càng rộng .Tuy nhiên trong phần này ta mới chỉ đề cập tới 1 biến ngẫu nhiên 1 chiều ( USD X \ in \ mathbb R USD ). Nhưng trong trong thực tiễn ta tiếp tục phải thao tác với nhiều biến ngẫu nhiên cùng lúc hay hoàn toàn có thể coi là một biến ngẫu nhiên nhiều chiều USD X \ in \ mathbb R ^ n USD. Ví dụ như giá nhà nhờ vào vào diện tích quy hoạnh, vị trí và thời hạn thiết kế xây dựng. Khi đó nếu ta tính Tỷ Lệ để mua được 1 căn nhà dưới 1 tỉ thì cần phải sử dụng cả 3 biến ngẫu nhiên đặc trưng cho diện tích quy hoạnh, vị trí và thời hạn kiến thiết xây dựng, hoặc hoàn toàn có thể là 1 biến ngẫu nhiên có 3 chiều ( diện tích quy hoạnh ; vị trí ; thời hạn kiến thiết xây dựng ). Việc phối hợp sử dụng biến ngẫu nhiên đa chiều như vậy sẽ được đề cập ở bài viết tới .Còn giờ đây, nếu có vướng mắc hay góp ý gì thì đừng quên để lại phản hồi phía dưới cho mình nhé !

Source: https://expgg.vn
Category: Thông tin

Total
0
Shares
Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Previous Post

Top những phần mềm đổi đuôi video tốt nhất năm 2021

Next Post

Hướng dẫn phát WiFi bằng iPhone và điện thoại Android, Windows

Related Posts