Ad
Thủ Thuật Công Nghệ

Logistic Regression là gì? Tìm hiểu chi tiết

Pinterest LinkedIn Tumblr

Logistic Regression có ý nghĩa quan trọng trong đời sống. Nó được ứng dụng để ước tính xác suất xảy ra sự cố, nghiên cứu gen sinh học, phân tích truyền thông,… Vậy hàm Logistic Regression là gì? Cùng Wiki Lanit tìm hiểu về công thức toán học, tầm quan trọng cũng như những ứng dụng trong cuộc sống và ví dụ thực tế.

Logistic Regression là gì?

Hồi quy Logistic là một phương pháp thống kê được ứng dụng để phân loại nhị phân, có nghĩa là dự đoán xem một đối tượng sẽ thuộc vào một trong hai nhóm. Mô hình này dựa trên nguyên tắc của hàm sigmoid, một hàm phi tuyến chuyển đổi đầu vào thành xác suất của việc thuộc về một trong hai lớp nhị phân.

Logistic Regression là gì?
Logistic Regression là gì?

Đây là một kỹ thuật phân tích dữ liệu bằng toán học nhằm tìm ra mối liên hệ giữa hai yếu tố dữ liệu. Từ mối liên hệ đó, kỹ thuật này sẽ dự đoán giá trị và kết quả thường cho ra hữu hạn như có hoặc không. Hàm Logistic Regression hoạt động dựa trên hàm Sigmoid có công thức như sau:

S(z)=1/(1+e−z)

Hàm Sigmoid nhận một giá trị z bất kỳ làm đầu vào và trả về một giá trị xác suất nằm trong khoảng [0,1]. Khi sử dụng trong mô hình Hồi quy Logistic với đầu vào là ma trận dữ liệu X và trọng số w, ta thường xuyên thấy z = Xw.

Trong quá trình huấn luyện, mục tiêu là tìm bộ trọng số w sao cho đầu ra dự đoán của hàm Sigmoid càng gần với kết quả thực tế nhất. Để đo lường sự hiệu quả của mô hình, chúng ta sử dụng hàm mất mát (Loss Function). Một mô hình được đánh giá là tốt khi hàm mất mát đạt giá trị thấp nhất, tức là dự đoán của mô hình gần với thực tế.

Hàm mất mát, hay Loss Function, đó là một hàm số được áp dụng để đo lường mức độ lỗi của mô hình khi dự đoán kết quả từ dữ liệu đầu vào. Trong bài toán Logistic Regression, chúng ta thường sử dụng hàm mất mát Cross-Entropy (hay Log Loss) để đánh giá khả năng của mô hình.

Mô hình Logistic Regression

Đầu ra dự đoán của Logistic Regression là:

Trong đó θ là Logistic Function, các Activation cho mô hình tuyến tính trông như sau:

  • Đường màu vàng là linear regression
  • Đường màu đỏ thuộc ngưỡng cứng (hard threshold)
  • Các đường xanh lam, xanh lục phù hợp là hàm số liên tục nhận giá trị

Lợi ích nổi bật của hồi quy logistic là gì?

Hồi quy logistic mang lại nhiều lợi ích quan trọng trong lĩnh vực Machine Learning và phân tích dữ liệu như sau:

  • Hồi quy logistic cho phép dự đoán xác suất và phân loại dữ liệu vào các nhóm khác nhau dựa trên thông tin đầu vào. Nó hữu ích để dự đoán kết quả hoặc xác định lớp của một điểm dữ liệu trong các bài toán phân loại.
  • Có khả năng xử lý cả dữ liệu đầu vào có liên quan đến nhiều biến hoặc các yếu tố có thể ảnh hưởng đến kết quả. Điều này làm cho nó phù hợp cho nhiều loại dữ liệu và tình huống khác nhau.
  • Hồi quy logistic có thể xử lý hiệu quả dữ liệu lớn, với tốc độ nhanh và tài nguyên tính toán ít hơn so với một số phương pháp Machine Learning phức tạp hơn.
  • Đây là một phương pháp đơn giản, dễ hiểu, có thể được triển khai một cách nhanh chóng mà không cần đội ngũ chuyên gia sâu về Machine Learning.
  • Hồi quy logistic không chỉ giới hạn ở việc phân loại dữ liệu thành hai lớp mà còn có thể mở rộng để xử lý dữ liệu với nhiều lớp hơn.

Phân tích hồi quy

Trước khi tìm hiểu về cách thức hoạt động của Logistic Regression là gì chúng ta cùng xem qua cách hoạt động của phân tích hồi quy.

Phân tích dữ liệu bằng hồi quy logistic bắt đầu bằng việc xác định câu hỏi cụ thể, ví dụ như liệu ngày mưa có ảnh hưởng đến doanh số hàng tháng hay không. Sau đó, thu thập dữ liệu lịch sử liên quan, như số ngày mưa và doanh số. Tiếp theo, sử dụng phần mềm hồi quy để xử lý dữ liệu và tạo phương trình toán học, chẳng hạn như Doanh số = 2*(Số ngày mưa) + 2. Cuối cùng, dùng phương trình này để dự đoán giá trị doanh số cho các giá trị không xác định, như dự đoán doanh số trong tháng 7 với sáu ngày mưa là 14.

Cách thức hoạt động của Logistic Regression là gì?

Cách thức hoạt động của Logistic Regression là gì?
Cách thức hoạt động của Logistic Regression là gì?

Phương trình

Trong lĩnh vực toán học, phương trình mô tả mối liên hệ giữa hai biến x và y. Bạn có thể sử dụng phương trình hoặc hàm này để tạo đồ thị, đặt giá trị cho x và y để vẽ đồ thị trên trục x và trục y. Ví dụ: nếu bạn vẽ đồ thị cho hàm y = 2*x, bạn sẽ thu được một đường thẳng như minh họa dưới đây. Do đó, loại hàm này còn được gọi là hàm tuyến tính.

Biến

Trong lĩnh vực thống kê, biến là các yếu tố dữ liệu hoặc thuộc tính có các giá trị khác nhau. Mỗi phân tích thường có các biến đặc biệt, trong đó có biến độc lập hoặc biến giải thích, đó là những yếu tố được coi là nguyên nhân của một kết quả. Ngược lại, các biến phụ thuộc hoặc biến đáp ứng là những yếu tố mà giá trị của chúng phụ thuộc vào các biến độc lập. Trong bối cảnh này, hồi quy logistic khám phá cách mà các biến độc lập ảnh hưởng đến một biến phụ thuộc bằng cách nghiên cứu giá trị lịch sử của cả hai loại biến.

Trong ví dụ đã đề cập, biến x được gọi là biến độc lập, biến dự đoán, hoặc biến giải thích vì nó có giá trị được xác định trước. Biến y được gọi là biến phụ thuộc, biến kết quả, hoặc biến đáp ứng vì giá trị của nó không được xác định trước.

Hàm Logistic Regression

Hồi quy Logistic sử dụng hàm logistic hay hàm logit trong toán học làm phương trình giữa x, y. Logit ánh xạ y là hàm sigmoid của x.

Khi vẽ ra đồ thị, ta có:

Hàm logit chỉ trả về giá trị giữa 0 và 1 cho biến phụ thuộc không quan tâm đến biến độc lập.

Hồi quy Logistic và nhiều biến độc lập

Trong nhiều trường hợp, nhiều biến giải thích tác động đến giá trị của biến phụ thuộc. Để mô hình hóa tập dữ liệu như vậy, công thức hồi quy logistic giả định mối quan hệ tuyến tính giữa các biến độc lập. Công thức có thể điều chỉnh hàm sigmoid và tính toán biến đầu ra cuối cùng theo dạng:

y=f(β0+β1×1+β2×2+…+βn​xn​)

Trong đó, ký hiệu β đại diện cho hệ số hồi quy. Mô hình logit có khả năng ước lượng giá trị của các hệ số này khi được cung cấp một tập dữ liệu thực nghiệm đủ lớn với giá trị đã xác định của cả hai biến phụ thuộc và biến độc lập.

Log và tỷ số odds

Mô hình logit có thể đo lường tỷ số thành công trên thất bại, hay logarit của tỷ số odds. Ví dụ: nếu bạn thắng bốn ván trong tổng số mười ván, tỷ số chiến thắng của bạn là 4/6, và xác suất thắng là 4/10.

Toán học biểu diễn tỷ số odds là p/(1 – p) và log của tỷ số odds là log(p/(1 – p)). Hàm logistic có thể được biểu diễn bằng log của tỷ số odds như sau:

Hồi quy Logistic có những loại nào?

Nhị phân

Hồi quy logistic nhị phân được áp dụng cho các vấn đề phân loại chỉ có hai kết quả có thể xảy ra. Biến phụ thuộc của nó chỉ nhận giá trị trong hai trạng thái, ví dụ như có và không, hoặc 0 và 1.

Mặc dù hàm logistic tính toán giá trị trong khoảng từ 0 đến 1, nhưng mô hình hồi quy nhị phân thường làm tròn kết quả gần nhất. Nói chung, kết quả dưới 0,5 sẽ được làm tròn thành 0 và kết quả trên 0,5 sẽ được làm tròn thành 1, tạo thành kết quả nhị phân.

Đa thức

Hồi quy đa thức được sử dụng để giải quyết các vấn đề với nhiều kết quả khả thi, miễn là số kết quả là hữu hạn. Chẳng hạn, nó có thể dự đoán mức tăng giá của một ngôi nhà là 25%, 50%, 75%, hoặc 100% dựa trên dữ liệu dân số, mặc dù không thể dự đoán giá chính xác của ngôi nhà.

Hồi quy logistic đa thức thực hiện ánh xạ các giá trị kết quả vào khoảng giữa 0 và 1. Hàm logistic có thể trả về các giá trị như 0.1, 0.11, 0.12, …, do đó, hồi quy đa thức cũng làm tròn kết quả đầu ra đến các giá trị gần nhất trong khoảng này.

Thứ tự

Hồi quy logistic thứ tự, hay mô hình logit thứ tự, là một biến thể của hồi quy đa thức được thiết kế đặc biệt để giải quyết các vấn đề trong đó các số biểu thị các hạng mục chứ không phải giá trị thực tế. Ví dụ: trong trường hợp dự đoán đánh giá dịch vụ từ khách hàng (kém, ổn, tốt, xuất sắc) dựa trên một giá trị số như số lượng mặt hàng mua trong năm, bạn có thể sử dụng hồi quy logit thứ tự.

Kết luận

Trên đây là tổng hợp mọi điều bạn cần biết về Logistic Regression là gì. Hy vọng thông qua bài viết bạn đã có thêm hiểu biết hơn về kỹ thuật này và ứng dụng thật thành công trong các lĩnh vực đang làm.

Mình là Tú Anh - Hiện mình đang đảm nhận một số mảng trong chiến dịch Marketing tại LANIT. Mình đã có kinh nghiệm nhiều năm trong mảng kinh doanh online, nên rất hy vọng với những kiến thức mình chia sẻ về lĩnh vực này sẽ thật sự hữu ích đối với các bạn.

Comments are closed.