Logistic Regression có ý nghĩa quan trọng trong đời sống. Nó được ứng dụng để ước tính xác suất xảy ra sự cố, nghiên cứu gen sinh học, phân tích truyền thông,… Vậy hàm Logistic Regression là gì? Cùng Wiki Lanit tìm hiểu về công thức toán học, tầm quan trọng cũng như những ứng dụng trong cuộc sống và ví dụ thực tế.
Logistic Regression là gì?
Hồi quy logistic là một phương pháp thống kê trong phân tích dữ liệu, sử dụng toán học để đo độ mối quan hệ giữa các biến độc lập và biến phụ thuộc. Phương pháp này thường được áp dụng khi biến phụ thuộc là một biến phân loại, có giới hạn trong một phạm vi cố định, thường là hai giá trị như “có” và “không”. Hồi quy logistic giúp dự đoán xác suất của sự kiện xảy ra dựa trên giá trị của các biến độc lập.
Hàm Logistic Regression hoạt động dựa trên hàm Sigmoid có công thức như sau:
S(z)=1/(1+e−z)
Mô hình Logistic Regression
Đầu ra dự đoán của Logistic Regression là:
Trong đó θ là Logistic Function, các Activation cho mô hình tuyến tính trông như sau:
- Đường màu vàng là linear regression
- Đường màu đỏ thuộc ngưỡng cứng (hard threshold)
- Các đường xanh lam, xanh lục phù hợp là hàm số liên tục nhận giá trị
Lợi ích nổi bật của hồi quy logistic là gì?
Hồi quy logistic mang lại nhiều lợi ích quan trọng trong lĩnh vực Machine Learning và phân tích dữ liệu như sau:
- Hồi quy logistic cho phép dự đoán xác suất và phân loại dữ liệu vào các nhóm khác nhau dựa trên thông tin đầu vào. Nó hữu ích để dự đoán kết quả hoặc xác định lớp của một điểm dữ liệu trong các bài toán phân loại.
- Có khả năng xử lý cả dữ liệu đầu vào có liên quan đến nhiều biến hoặc các yếu tố có thể ảnh hưởng đến kết quả. Điều này làm cho nó phù hợp cho nhiều loại dữ liệu và tình huống khác nhau.
- Hồi quy logistic có thể xử lý hiệu quả dữ liệu lớn, với tốc độ nhanh và tài nguyên tính toán ít hơn so với một số phương pháp Machine Learning phức tạp hơn.
- Đây là một phương pháp đơn giản, dễ hiểu, có thể được triển khai một cách nhanh chóng mà không cần đội ngũ chuyên gia sâu về Machine Learning.
- Hồi quy logistic không chỉ giới hạn ở việc phân loại dữ liệu thành hai lớp mà còn có thể mở rộng để xử lý dữ liệu với nhiều lớp hơn.
Phân tích hồi quy
Trước khi tìm hiểu về cách thức hoạt động của Logistic Regression là gì chúng ta cùng xem qua cách hoạt động của phân tích hồi quy.
Phân tích dữ liệu bằng hồi quy logistic bắt đầu bằng việc xác định câu hỏi cụ thể, ví dụ như liệu ngày mưa có ảnh hưởng đến doanh số hàng tháng hay không. Sau đó, thu thập dữ liệu lịch sử liên quan, như số ngày mưa và doanh số. Tiếp theo, sử dụng phần mềm hồi quy để xử lý dữ liệu và tạo phương trình toán học, chẳng hạn như Doanh số = 2*(Số ngày mưa) + 2. Cuối cùng, dùng phương trình này để dự đoán giá trị doanh số cho các giá trị không xác định, như dự đoán doanh số trong tháng 7 với sáu ngày mưa là 14.
Cách thức hoạt động của Logistic Regression
Hồi quy Logistic là phương pháp thống kê sử dụng để dự đoán xác suất của một sự kiện xảy ra dựa trên giá trị của một hoặc nhiều biến độc lập. Bằng cách sử dụng một phương trình toán học, mô hình này mô tả mối liên hệ giữa biến độc lập và biến phụ thuộc, trong đó hàm logistic được sử dụng để chuyển đổi giá trị và dự đoán xác suất của sự kiện đó. Mô hình hồi quy Logistic giả định mối quan hệ tuyến tính giữa các biến độc lập và tính toán giá trị cuối cùng của biến phụ thuộc bằng cách tổng hợp trọng số nhân với giá trị tương ứng của biến độc lập. Logit được sử dụng để đo lường tỷ số odds, cung cấp thông tin về mức độ thay đổi xác suất của sự kiện. Hồi quy Logistic là một công cụ quan trọng trong thống kê, đặc biệt là trong việc phân loại và dự đoán kết quả.
Hồi quy Logistic có những loại nào?
Hồi quy Logistic có ba loại chính:
Nhị phân
- Dùng cho các vấn đề phân loại chỉ có hai kết quả có thể xảy ra.
- Biến phụ thuộc nhận giá trị trong hai trạng thái, chẳng hạn như có và không, hoặc 0 và 1.
- Kết quả thường được làm tròn thành 0 hoặc 1 dựa trên giá trị dự đoán của hàm logistic.
Đa thức
- Sử dụng khi có nhiều kết quả khả thi, miễn là số kết quả là hữu hạn.
- Có thể dự đoán giá trị của biến phụ thuộc trong khoảng từ 0 đến 1.
- Kết quả có thể là giá trị liên tục, được làm tròn đến giá trị gần nhất trong khoảng.
Thứ tự
- Là biến thể của hồi quy đa thức, sử dụng khi các số biểu thị các hạng mục chứ không phải giá trị thực tế.\
- Thích hợp cho các vấn đề đánh giá xếp hạng hay thứ bậc, chẳng hạn như đánh giá dịch vụ từ khách hàng.
Kết luận
Trên đây là tổng hợp mọi điều bạn cần biết về Logistic Regression là gì. Hy vọng thông qua bài viết bạn đã có thêm hiểu biết hơn về kỹ thuật này và ứng dụng thật thành công trong các lĩnh vực đang làm.
Comments are closed.