Luật Benford- Làm thế nào phát hiện số liệu giả tạo?

Luật Benford- Làm thế nào phát hiện số liệu giả tạo?

Bản để inEmail

Bendfor Bạn có thể nghĩ rằng chỉ cần thống kê các chữ số của một bảng số liệu, người ta có thể có chứng cớ để nghi ngờ các số liệu đã được ngụy tạo? Trong một số tình huống, điều này là có thể, dựa vào một luật rất thú vị, luật Benford (Benford’s Law) hay còn gọi là luật chữ số thứ nhất (First Ditgit Law)

Câu chuyện bắt đầu từ khi nhà toán học, thiên văn học, người Mỹ Jacob Newcombe rất ngạc nhiên khi thấy ở các quyển tra cứu logarithm (mà ông mượn ở thư viện- nếu có máy tính như hiện nay thì chắc gì câu chuyện này xảy ra :-)) những trang đầu thường rất bẩn hoặc bị rách, trong khi đó thì những trang sau lại sạch sẽ nguyên lành hơn nhiều. Các trang đầu chứa các số bắt đầu bằng 1 nhiều hơn, còn các trang sau thì các số lại có chữ số đầu lớn hơn. Newcomb đặt giả thiết là phải chăng người ta gặp các số có chữ số đầu là chữ số nhỏ nhiều hơn là các chữ số lớn? Từ giả thiết đó, Newcombe đã có một bài báo đề cập đến hiện tượng này và tính được xác suất gặp các chữ số đầu là 1, 2, 3… 9  sẽ giảm dần theo thứ tự đó. Trong đó 1 có xác suất kỳ vọng đến 30.1%, 2 chỉ hơn 15% v.v… và chữ số 9 chỉ là 5%.  Như hình dưới đây minh họa.

image

Hình 1: Xác suất kỳ vọng của các chữ số đầu tiên

Như vậy, các chữ số đầu không có xác suất xảy ra như ta thường nghĩ là 1/9 (vì có chín chữ số, 0 không được xem là chữ số đầu tiên (*))

Bẵng đi 57 năm, Frank Benford, cũng là một nhà vật lý người Mỹ, nghiên cứu lại hiện tượng này và được mọi người chú ý, sau đó đặt tên luật này theo tên ông. Frank Benford thu thập số liệu thực tế từ số liệu dân số, lưu lượng các con sông, các con số xuất hiện trong tờ bào Reader Digest v.v…với 20000 con số và đếm các chữ số đầu tiên(hình 2). Benford công bố kết quả của mình nhưng không giải thích vào năm 1938 với tên gọi là The Law of Anomalous  Numbers.  Những số liệu tuân theo luật đó Benford gọi là outlaw number, như các số liệu mà ông thu thập nói trên, các số liệu không tuân theo luật được gọi là orderly numbers, như các hằng số vật lý.

image

Hình 2: Các số liệu mà Benford thu thập [2], các cột 1-9 là tần suất các con số có chữ số đầu tiên tương ứng.

Kể từ đó người ta đã thống kê được 150 bài báo, công trình để giải thích kết quả thú vị này và ứng dụng nó trong nhiều ngành, đặc biệt là kế toán.

Sau đây là cách giải thích của Fewster [1] về luật Benford.

Trước hết, có thể nhận thấy rằng:

image

Một cách tổng quát, với các số liệu tuân theo luật Benford thì xác suất kỳ vọng của  số có chữ số đầu tiên là d là:

image

Ta sẽ chứng tỏ cho trường hợp chữ số đầu là 1.

Một số nguyên bất kỳ có thể viết dưới dạng

image

Với r thuộc nửa khoảng [1,10) và n nguyên dương

Ví dụ, chẳng hạn, 12 = 1.2 x 10^1; 879 = 8.79 x 10^2

Đó chính là cách viết theo dạng khoa học, thường chúng ta ghi dưới dạng 1.2+1E và 8.79 + 2E. Với E có nghĩa là exponent (mũ).

Chữ số đầu tiên là gì phụ thuộc vào chính r.

Để ý là chữ số đầu tiên của X là 1 nếu và chỉ nếu 1≤ r < 2.

Lấy log 10 cả hai vế:

image

image

image (1)

Điều kiện

image

Chính là

image

image

Từ (1) ta kết luận X có chữ số đầu tiên là 1 khi và chỉ khi logX nằm trong khoảng n và n+0.301 với mọi n nguyên dương

Xét hàm mật độ xác suất của chữ số đầu tiên của logX thì ta thấy rằng, xác suất mà X nhận được chữ số đầu tiên là 1 chính là diện tích các dải bằng nhau đi từ 0. mỗi dải có độ rộng là 0.301 và cách đều nhau, tổng diện tích của các dải này chính là 0.301.

image

Giải thích tương tự cho các chữ số 2, 3…9 ta sẽ nhận được phân phối của các chữ số đầu tiên đối với một biến ngẫu nhiên là số nguyên X, như kết quả mà Newcombe và Benford đã đưa ra.

Trên đây là cách giải thích của Fewster. Bạn có thể xem kỹ hơn trong bản trình bày Power Point mà chúng tôi đưa vào mục tư liệu bạn có thể tài về sau khi đăng nhập.

Kỳ sau chúng ta sẽ điểm qua một vài ứng dụng của luật Benford.

Trần Quý Phi

(*) Ta hiểu chữ số đầu (first digit, là chữ số có nghĩa đầu tiên, 135 có chữ số đầu là 1, 0.34 có chữ số đầu là 3)

Tham khảo (chúng tôi đã gộp lại và để ở mục tư liệu các tài liệu 1, 2, 4,5)

[1] R. M. Fewster (2009). The Simple Explanation of Benford’s Law, The American Statistician. February 1, 2009, 63(1): 26-32. doi:10.1198/tast.2009.0005.

[2] R. M. Fewster, How to Fake Data If You Must, (lecture), University of Auckland. (bản Power Point).

[3] Steven W. Smith,The Scientist and Engineer’s Guide to Digital Signal Processing, Chapter 34: Explaining Benford’s Law

[4] Mark Nigrini and Linda Mittermaier (1997) The Use of Benford’s Law as an Aid in Analytical Procedures, Auditing, vol. 16 no 12, Fall 1997.

[5] Cindy Durtchsi et al.(2004), The Effetive Use of Benford’s Law to Assist in Detecting Fraud in Accounting Data,Journal of Forensic Accounting, vol V(2004).

[6] Mark Nigrini (1999),I’ve got your number!, Journal of Accountancy, 5-1999.

This entry was posted in xac suat thong ke thuong thuc. Bookmark the permalink.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s