I. Khoảng biến thiên. Khoảng tứ phân vị
1. Định nghĩa
Trong một mẫu số liệu, khoảng biến thiên là hiệu số giữa giá trị lớn nhất và giá trị nhỏ nhất của mẫu số liệu đó.
Ta có thể tính khoảng biến thiên \(R\) của mẫu số liệu theo công thức sau: \(R = {x_{{\rm{max }}}} - {x_{{\rm{min}}}}\), trong đó \({x_{\max }}\) là giá trị lớn nhất, \({x_{\min }}\) là giá trị nhỏ nhất của mẫu số liệu đó.
- Giả sử \({Q_1},{Q_2},{Q_3}\) là tứ phân vị của mẫu số liệu. Ta gọi hiệu \({\Delta _Q} = {Q_3} - {Q_1}\) là khoảng tứ phân vị, của mẫu số liệu đó.
Chú ý: Một số tài liệu gọi khoảng biến thiên là biên độ và khoảng tứ phân vị là độ trải giữa.
2. Ý nghĩa của khoảng biến thiên và khoảng tứ phân vị
- Khoảng biến thiên đặc trưng cho độ phân tán của toàn bộ mẫu số liệu.
- Khoảng tứ phân vị đặc trưng cho độ phân tán của một nửa các số liệu, có giá trị thuộc đoạn từ \({Q_1}\) đển \({Q_3}\) trong mẫu.
- Khoảng tứ phân vị không bị ảnh hưởng bởi các giá trị rất lớn hoặc rất bé trong mẫu.
II. Phương sai
Cho mẫu số liệu thống kê có \(n\) giá trị \({x_1},{x_2}, \ldots ,{x_n}\) và số trung bình cộng là \(\bar x\).
Ta gọi số \({s^2} = \dfrac{{{{\left( {{x_1} - \bar x} \right)}^2} + {{\left( {{x_2} - \bar x} \right)}^2} + \ldots + {{\left( {{x_n} - \bar x} \right)}^2}}}{n}\) là phương sai của mẫu số liệu trên.
Chú ý: Có thể biến đổi công thức tính phương sai ở trên thành:
\({s^2} = \dfrac{1}{n}\left( {x_1^2 + x_2^2 + \ldots + x_n^2} \right) - {\bar x^2}.\)
Trong thống kê, người ta cũng quan tâm đến phương sai hiệu chỉnh, kí hiệu là \({\hat s^2}\), được tính bởi công thức:
\({\hat s^2} = \dfrac{1}{{n - 1}}\left[ {{{\left( {{x_1} - \bar x} \right)}^2} + {{\left( {{x_2} - \bar x} \right)}^2} + \ldots + {{\left( {{x_n} - \bar x} \right)}^2}} \right]\)
Ý nghĩa: Phương sai là số đặc trưng đo mức độ phân tán của mẫu số liệu. Mẫu số liệu có phương sai nhỏ hơn thì mức độ phân tán của các số liệu trong mẫu đó sẽ thấp hơn.
III. Độ lệch chuẩn
Căn bậc hai của phương sai gọi là độ lệch chuẩn của mẫu số liệu thống kê: \(s = \sqrt {{s^2}} \)
Ý nghĩa:
Khi hai mẫu số liệu thống kê có cùng đơn vị đo và có số trung bình cộng bằng nhau (hoặc xấp xỉ), mẫu số liệu có độ lệch chuẩn nhỏ hơn thì mức độ phân tán (so với số trung bình cộng) của các số liệu trong mẫu đó sẽ thấp hơn. Độ lệch chuẩn là số đặc trưng đo mức độ phân tán của mẫu số liệu thống kê có cùng đơn vị đo.
IV. Tính hợp lí của số liệu thống kê 2
Ta thường sử dụng khoảng tứ phân vị để xác định số liệu bất thường của mẫu số liệu. Cụ thể như sau:
Giả sử \({Q_1},{Q_2},{Q_3}\) là tứ phân vị của mẫu số liệu và hiệu \({\Delta _Q} = {Q_3} - {Q_1}\) là khoảng tứ phân vị của mẫu số liệu đó. Một giá trị trong mẫu số liệu được coi là một giá trị bất thường nếu nó nhỏ hơn \({Q_1} - \dfrac{3}{2}{\Delta _Q}\) hoặc lớn hơn \({Q_3} + \dfrac{3}{2}{\Delta _Q}\).
Như vậy, khoảng tứ phân vị cho ta cách nhận ra giá trị bất thường của mẫu số liệu.
Chú ý: Ta cũng có thể xác định số liệu bất thường của mẫu số liệu bằng số trung bình cộng và độ lệch chuẩn. Cụ thể như sau:
Giả sử \(\bar x,s\) lần lượt là số trung bình cộng và độ lệch chuẩn của mẫu số liệu.
Một giá trị trong mẫu số liệu cũng được coi là một giá trị bất thường nếu nó nhỏ hơn \(\bar x - 3s\) hoặc lớn hơn \(\bar x + 3s\).
Như vậy, số trung bình cộng và độ lệch chuẩn cho ta cách nhận ra giá trị bất thường của mẫu số liệu.