Hiện tượng nội sinh (Endogeneity) – How lớn STATA

Chào người sử dụng,

Hôm nay, advert sẽ giải thích về 1 hiện tượng mà có lẽ trường hợp bạn đã từng bắt tay thực hành nghiên cứu thì bạn đã được nghe về nó ít nhất 1 lần – đấy là hiện tượng nội sinh. Dòng tên của hiện tượng này quá mĩ miều và ‘fancy’ nên làm chúng ta khá ngại nói về nó. Thêm vào đấy, bí quyết thức giải quyết hiện tượng nội sinh là siêu phức tạp nên làm cho chúng ta càng ngại hơn. Bản thân advert cũng siêu ngại vấn đề này mặc dầu advert biết khá rõ bản chất của vấn đề này cũng như 1 vài bí quyết thức để giải quyết. Tuy nhiên, biết là 1 chuyện, còn thực hành nó lại là 1 chuyện khác 😀 Nhưng trong bài viết hôm nay, advert chỉ tạm ngừng lại trên mức độ chia sẻ có người sử dụng về hiện tượng này, những nguyên nhân chính dẫn tới hiện tượng này và phương pháp dùng biến công cụ để xử lý hiện tượng này nhé.

  1. Định nghĩa

Hiện tượng nội sinh là 1 thuật ngữ diễn tả hiện tượng lúc 1 hoặc nhiều biến giải thích (biến X) có mối quan hệ có sai số của mô hình. Như trong 1 số bài viết trước, người sử dụng đã biết sai số của mô hình là hiệu số giữa giá trị xem được của Y và giá trị dự đón của Y được tính toán dựa trên những hệ số hồi quy và giá trị của biến X. Giả sử ta có mô hình hồi quy dạng Y = a + bX + u thì sai số u cho từng dòng xem sẽ được tính là: u = Y – (a+b*X). Sai số của mô hình sẽ đại diện cho liên quan của những biến mà mình ko xem được/ko đưa vào mô hình. Những liên quan ko xem được này nên là những liên quan ko mang trong mình tính hệ thống (nghĩa là nó liên quan tới đối tượng này, nhưng ko liên quan tới đối tượng khác), ko tuân theo 1 quy luật nào cả, và là những liên quan ko quá đáng nói.

Lưu ý là toàn bộ những mô hình đều có sai số, tuy nhiên điều quan yếu là sai số đấy cần nên thỏa mãn 1 trong những giả định siêu quan yếu của mô hình hồi quy đấy là: E(u|X) = 0. Giả định này bảo rằng, giá trị trung bình của những sai số dựa trên điều kiện của những biến X trong mô hình nên bằng 0. Đơn giản hơn, giả định này đề nghị sai số ko được có mối quan hệ có X. Ví dụ như giả định này ko được đảm bảo, điều đấy có nghĩa là trong sai số chứa đựng những thành phần nào đấy (mà mình đã ko đưa vào mô hình) có thể giải thích được Y và bản thân những biến X cứng cáp chắn nên là những biến có mối quan hệ có Y. Vô hình chung, biến X và sai số có mối quan hệ có nhau và như vậy hiện tượng nội sinh xảy ra. Lúc đấy, những hệ số hồi quy ước lượng theo phương pháp hồi quy tuyến tính OLS sẽ bị chệch (biased) và nó sẽ ko phản ánh đúng được mối quan hệ giữa X và Y. Hay nói 1 bí quyết đơn giản, ta ko thể nào dùng những hệ số hồi quy này được.

Để dễ hình dung hơn thì advert nói về 1 thí dụ nhé. Giả sử như advert muốn tìm mối quan hệ giữa số 5 đi học và thu nhập của từng người. Như vậy, advert sẽ thực hành hồi quy biến X là biến số 5 đi học trên biến Y là biến thu nhập để tìm hiểu xem liệu học nhiều có giúp mình tìm được thu nhập cao hơn trong tương lai hay ko? Vấn đề trong mô hình của advert là có thể có nhiều khía cạnh khác liên quan tới thu nhập mà advert đã quên đưa vào mô hình thí dụ như khả năng của từng người. Ta có thể thấy là khả năng có mối quan hệ khá chặt chẽ có số 5 đi học của từng người và cả thu nhập trong tương lai. Vậy nên, mô hình của advert cứng cáp chắn bị hiện tượng nội sinh và biến số 5 đi học thường được gọi là biến nội sinh.

Xem Thêm  Dịch Cabin là gì? 3 Kỹ năng Phiên dịch viên Cabin cần có

2. Nguyên nhân

Hiện tượng nội sinh thường xảy ra do 3 nguyên nhân: bỏ sót biến, mối quan hệ đồng thời và lỗi đo lường biến. Advert sẽ giải thích từng nguyên nhân có những thí dụ cụ thể nhé.

2.1. Bỏ sót biến (omitted variable bias)

Đây là lỗi mà chúng ta bỏ sót 1 hoặc 1 vài biến quan yếu trong mô hình. Dí dụ về lỗi này thì advert vừa trình bày trên trên luôn. Để làm cho cho nó có vẻ kinh tế lượng hơn thì mình sẽ giải thích theo mô hình nhé.

Mô hình đúng mà advert nên ước lượng là:

Tuy nhiên, vì 1 nguyên nhân nào đấy, advert ko có dữ liệu về khả năng nên advert chỉ có thể ước lượng được mô hình sau:

Lúc này, sai số u của mô hình sẽ là:

Và hệ số hồi quy beta 1 sẽ được ước lượng theo công thức sau:

Sai số ε trong mô hình đúng sẽ ko có mối quan hệ có biến số 5 đi học nên Cov(ε, số 5 đi học)= 0.

Advert để thêm dấu mũ trên beta 1 để mọi người phân biệt đấy là hệ số hồi quy ước lượng được thông qua mô hình bị sai, còn beta 1 là hệ số hồi quy hồi quy chuẩn (true beta). Tất nhiên là ta cần true beta = giá trị ước lượng, nhưng trong trường hợp này vì ko có biến khả năng trong mô hình nên hệ số hồi quy ước lượng sẽ ko phản ánh đúng hệ số hồi quy chuẩn.

2.2. Mối quan hệ đồng thời (simultaneity bias)

Vấn đề này xảy ra lúc biến X và biến Y tác động lẫn nhau. 1 trong những thí dụ kinh điển của vấn đề này là mối quan hệ giữa tỷ lệ phạm tội và số lượng cảnh sát. Tỷ lệ phạm tội quyết định số lượng cảnh sát cần có hay là số lượng cảnh sát làm cho liên quan tới tỷ lệ phạm tội? Cả 2 mối quan hệ này đều có ý nghĩa và xảy ra đồng thời. Vậy thì hiện tượng nội sinh sẽ xảy ra như thế nào?

Vì X và Y đều có thể tác động lẫn nhau nên mối quan hệ giữa X và Y được biểu hiện như sau:

Giả sử trong trường hợp này chúng ta ko có hiện tượng bỏ sót biến như trên trên nhé và mối quan hệ mà ta để ý là tác động của X lên Y (mô hình 1). Sai số u của mô hình (1) có mối quan hệ có Y, mà Y lại có thể tác động lên X như trong mô hình (2) nên X và u có quan hệ có nhau. Ngược lại, sai số v của mô hình (2) có mối quan hệ có X, mà X lại tác động lên Y như trong mô hình (1) nên Y và v có mối quan hệ có nhau. Như vậy, trường hợp chúng ta chỉ xem xét 1 trong 2 mô hình trên, chúng ta đã bỏ qua tác động của hiện tượng nội sinh và vì vậy, chúng ta ko thể ước lượng được hệ số hồi quy chuẩn a1 và b1. Bạn có thể chứng minh tương tự động như bí quyết trên trên để xem thử hệ số hồi quy ước lượng và hệ số hồi quy chuẩn bị lệch nhau như thế nào nhé.

2.3. Lỗi đo lường biến (measurement error)

Lỗi này có tên gọi đơn giản nhất và dễ hiểu nhất. Nó xảy ra lúc chúng ta đo lường biến giải thích bị sai.

Xem Thêm  App Matte là gì? Thực hư app Matte tìm tiền lừa đảo hack xu 2023

Giả sử mô hình chúng ta cần ước lượng là:

Tuy nhiên, vì 1 nguyên nhân nào đấy, chúng ta ko thể đo lường chính xác biến X mà chúng ta lại đo lường biến X* có 1 sai số đo lường nào đấy.

Như vậy, mô hình mà chúng ta muốn ước lượng vô tình phát triển thành:

Sai số u thời gian này} bao gồm sai số ε và 1 phần của sai số đo lường v. Điều này gây ra hiện tượng nội sinh vì thành phần v trong sai số new có mối quan hệ quản lý có biến X*. Và hiện tượng này làm cho cho chúng ta ko thể ước lượng được hệ số hồi quy chuẩn như chúng ta mong muốn.

Đây chính là 3 nguyên nhân chính gây ra hiện tượng nội sinh và lưu ý rằng lúc hiện tượng này xảy ra, hệ số hồi quy ước lượng theo phương pháp OLS sẽ bị lệch chuẩn (biased). Bí quyết để giải quyết hiện tượng này thông thường dựa vào việc dùng những phương pháp hồi quy có liên quan tới biến công cụ (instrument variable). Thông thường biến công cụ được ký hiệu là Z trong mô hình hồi quy. Ta có thể dùng 1 hoặc nhiều biến công cụ cho biến giải thích X. Biến công cụ Z cần nên thoải mãn được cả 2 điều kiện:

1 là, biến Z có mối quan hệ càng mật thiết càng phải chăng có biến X.

2 là, biến Z ko được có mối quan hệ có sai số u của mô hình.

Việc kiếm tìm và chứng minh 1 biến công cụ phải chăng ko nên đơn giản trường hợp ko muốn nói là siêu phức tạp. Sở hữu điều kiện thứ 1, chúng ta có thể dễ dàng chứng minh được bằng bí quyết thực hành hồi quy có Z là biến giải thích và X là biến phụ thuộc. Ví dụ hệ số hồi quy của Z trên X có ý nghĩa thống kê mạnh và thống kê F có giá trị càng lớn càng phải chăng thì coi như chúng ta đã có thể chứng minh được điều kiện 1. Tuy nhiên, có điều kiện thứ 2, ko hề có 1 bí quyết gì để chúng ta có thể đánh giá nó được. Nhiều bạn có thể nghĩ là sao chúng ta ko chạy mô hình của Y lên X, lấy ra sai số u rồi tiếp theo chạy mô hình giữa u và Z. Nghe thì có vẻ hợp lý, nhưng bí quyết này ko được nha. Đối có giả định này, chúng ta cần nên giải thích để chứng minh là Z và u ko có mối quan hệ có nhau. Có thể có nhiều bí quyết giải thích, miễn sao chúng ta thuyết phục được là được.

Bí quyết thức vận hành lúc chúng ta dùng biến công cụ là mô hình sẽ được ước lượng theo 2 bước.

Bước 1: Chúng ta sẽ ước lượng X từ Z bằng bí quyết chạy hồi quy X trên Z.

Tiếp theo, chúng ta sẽ lấy ra ước lượng của X:

Bước 2: Thay thế vì dùng X, chúng ta sẽ dùng ước lượng của X trong mô hình hồi quy có Y.

Như vậy, hệ số b1 mà chúng ta cần ước lượng sẽ ko bị chệch nữa. Ví dụ bạn cần advert chứng minh vì sao làm cho được như vậy thì inbox cho advert nha.

Những phương pháp ước lượng liên quan tới biến công cụ đều có thể giúp chúng ta thực hành 2 bước này trong 1 câu lệnh, chứ chúng ta ko cần nên làm cho 2 bước biệt lập như advert trình bày trên trên. Nhưng trường hợp bạn muốn làm cho 2 bước thì cũng okay, chỉ có điều sai số của hệ số hồi quy sẽ ko được tính chính xác so có việc chúng ta chạy hài hòa trong 1 câu lệnh.

Quay trở lại thí dụ về số 5 đi học và thu nhập trong tương lai của từng người mà advert nói trên trên. Biến số 5 đi học cứng cáp chắn là biến nội sinh trong mô hình vì nó có thể liên quan tới những khía cạnh cũng liên quan tới thu nhập nhưng chúng ta ko xem được như khả năng, động lực, hoặc ứng dụng gia đình, v.v… Đa số những khía cạnh này đều được biểu hiện qua sai số u. Trong trường hợp này, chúng ta có thể chọn biến công cụ nào để có thể loại trừ liên quan nội sinh? Trong nghiên cứu của Angrist và Krueger (1991) thực hành trên Mỹ về vấn đề này, họ đã dùng biến quý sinh của người đấy để làm cho biến công cụ cho biến số 5 đi học. Nghe có vẻ thú vị đúng ko? 2 điều kiện của biến công cụ được thỏa mãn như thế nào?

Xem Thêm  Ref là gì? Ý nghĩa của từ Ref trong những lĩnh vực khác nhau

Điều kiện 1: Biến công cụ Z có mối quan hệ có X

5 học trên Mỹ khởi đầu vào tháng 9 và trẻ em nên tròn 6 tuổi vào 5 nhập học lớp 1, nên những đứa bé sinh ra vào quý IV (từ tháng 10 tới tháng 12) sẽ nhập học lớp 1 lúc chúng sắp tròn 6 tuổi (vì nên tính tới sinh nhật new tròn tuổi). Trong lúc đấy, những đứa bé sinh vào quý I (tháng 1 tới tháng 3) thì nên chờ tới tháng 9 5 sau new được nhập học vì tới tháng 9 cùng 5 thì chúng vẫn chưa tròn 6 tuổi. Lúc những đứa bé này tròn 16 tuổi thì những đứa bé sinh vào quý 4 đã hoàn thành lớp 11, còn những đứa bé sinh vào quý 1 new chỉ hoàn thành lớp 10. Như vậy, quý sinh của từng người có mối quan hệ mật thiết có số 5 đi học của người đấy. Điều kiện 1 coi như đã được chứng minh.

Điều kiện 2: Biến công cụ Z ko được có mối quan hệ có u.

Tác giả đã giải thích rằng quý sinh của từng người ko có mối quan hệ có khả năng hay là động lực vì những khía cạnh này liên quan tới khía cạnh di truyền hoặc là mức độ khắng khít trong những mối quan hệ giai đình nhiều hơn. Nguyên nhân này có vẻ siêu thuyết phục rồi nên ko? Tuy nhiên, cũng có ý kiến phản biện rằng quý sinh của từng người có thể có liên quan ứng dụng gia đình (lưu ý đây là 1 trong nhưng khía cạnh ko xem được và được biểu hiện qua sai số) vì có gia đình sẽ ưa chuộng sinh con vào 1 mùa nhất định trong 5!!!

Như chúng ta thấy việc đưa ra những lý luận để giải thích biến công cụ thỏa mãn điều kiện thứ 2 là ko hề đơn giản. Những biến công cụ phải chăng thường là những biến được tạo ra từ những thực nghiệm hơn là những biến có sẵn mà chúng ta xem được. Tuy nhiên, lúc thực hành những thực nghiệm thì sẽ tốn siêu nhiều tiền của và công sức. Dẫu vậy, điều này ko có nghĩa là việc kiếm tìm biến công cụ là vô vọng đâu nhé. Trên thực tế có siêu nhiều nghiên cứu đã xuất sắc tìm ra những biến công cụ phải chăng dựa trên những dữ liệu có sẵn.

Hy vọng bài viết này của advert đã giúp người sử dụng hiểu về 1 trong những hiện tượng khó hiểu nhất trong kinh tế lượng 😊 Và nhớ là lúc xây dựng mô hình hồi quy, hãy cố gắng đặt câu hỏi về hiện tượng nội sinh để xem là mô hình của mình có thể mắc nên 3 lỗi mà mình đã trình bày trên trên ko nhé.

Tài liệu tham khảo

Damodar Gujarati (2012), Econometrics by instance, chapter 19.

Angrist and Pischke (2015), Mastering metrics – The trail from trigger lớn impact, Chapter 3