Sức mạnh của Toán học thống kê.
Trong thế chiến thứ II phe đồng minh gặp một vấn đề khá đau đầu là phải ước lượng số xe tăng Đức sản xuất được là bao nhiêu. Như đã biết xe tăng Đức có nhiều ưu thế vượt trội hơn so với phe đồng minh đặc biệt là loại Panther (Con báo). Dĩ nhiên ngành được giao nhiệm vụ thu thập thông tin, số liệu chính là ngành tình báo.
Nhưng những con số mà ngành tình báo đưa ra có nhiều mâu thuẫn. Lúc này các nhà thống kê vào cuộc. Họ đã đưa ra kết quả khác hẳn (thấp hơn nhiều). Và sau chiến tranh, theo những tài liệu gốc thu thập được của Đức, thì kết quả đó là rất chính xác. Còn con số của ngành tình báo thì sai bét.
Những nhà thống kê dựa vào số seri của xe tăng mà phe Đồng minh tịch thu hoặc phá hủy để tiến hành ước đoán .
Giả sử số seri của các xe tăng được Đức đánh từ 1, 2, 3, 4, 5 đến N. N là con số mà phe Đồng minh phải ước lượng. Bây giờ phe Đồng minh bắt được (hoặc phá hủy được) 5 chiếc có số seri là 20, 31, 43, 78 và 92.
Đặt số lượng xe tăng thu được là k (trong bài k=5), và số hiệu lớn nhất là m (trong bài toán m = 92).
Thống kê truyền thống (theo tần suất) cho rằng:
N ≈ m +m/k -1 = 109
Tuy nhiên, thống kê Bayes lại cho rằng: (xem ảnh) với μ là trung bình và σ là độ lệch chuẩn.
N≈μ±σ
Theo dữ kiện bài thì N≈122±45
Khi thu được nhiều mẫu hơn thì k sẽ càng lớn và ước lượng sẽ càng chính xác hơn.
Các thông tin tình báo cho rằng trong giai đoạn 6/1940 tới 9/1942 thì người Đức sản xuất được 1400 xe tăng một tháng. Tuy nhiên, các con số theo thống kê lại cho rằng chỉ khoảng 256. Sau cuộc chiến, bộ trưởng bộ Khí tài Chiến tranh, Albert Speer, khi bị bắt, đã công bố con số là 255 chiếc một tháng.
Trong kinh tế học, ta cũng có thể sử dụng bài toán này để ước lượng hiệu suất làm việc của một cơ quan, doanh nghiệp nào đó. Từ việc xem số hóa đơn, số seri trên sản phẩm hay số thứ tự để đợi lượt phục vụ (với điều kiện việc đánh số xảy ra theo trình tự). Có những thông tin vô giá mà toán học có thể bóc trần giúp ta.
____________
© Đỗ Tiến