Cập nhật nội dung chi tiết về Tổng Quan Về Regression (Phân Tích Hồi Quy) mới nhất trên website Asianhubjobs.com. Hy vọng thông tin trong bài viết sẽ đáp ứng được nhu cầu ngoài mong đợi của bạn, chúng tôi sẽ làm việc thường xuyên để cập nhật nội dung mới nhằm giúp bạn nhận được thông tin nhanh chóng và chính xác nhất.
Bigdatauni.com
Follow Fanpage
Contact
Ở những bài viết trước về các thuật toán cây quyết định, Decision trees hay Classification & Regression trees, chúng tôi đã đề cập đến phương pháp phân tích hồi quy, Regression analysis, cụ thể trong phần cuối cùng về Regression tree, cách sử dụng cây quyết định để dự báo giá trị của biến mục tiêu (là biến định lượng), dựa trên các thuộc tính, đặc điểm nằm ở những biến đầu vào còn lại của các đối tượng dữ liệu. Mô hình cây quyết định sử dụng chính nguyên lý hoạt động của các phương trình hồi quy, đó là tìm ra mối quan hệ giữa những biến độc lập với biến phụ thuộc, giữa những biến đầu vào và biến dự báo, cũng vì vậy nên được gọi là Regression tree.
Ví dụ được lấy từ tài liệu “Data mining for business analytics – concepts, techniques and applications in R” của tác giả Galit Shmueli và các cộng sự. Bên trên là mô hinh Regression tree dự báo giá của một chiếc xe Toyota dựa trên 3 biến: tuổi đời chiếc xe (Age), trọng lượng (Weight) và mã lực (Horse power – HP), đã được chọn lọc trong 12 biến có được trong tập dữ liệu về 1000 chiếc xe Toyota Corolla, được lấy ra 600 để làm tập dữ liệu training. Ví dụ với chiếc xe có độ tuổi là 55, mã lực bằng 100 thì có thể bán với giá 9358$.
Các bạn có thể thấy mối quan hệ giữa độ tuổi với giá trị của chiếc xe, tức độ tuổi cao hay thấp sẽ có tác động nhất định với giá trị của chiếc xe, tương tự như mã lực cao hay thấp, tuy nhiên tác động của độ tuổi, và mã lực đến giá xe, tác động nào mạnh hơn, lớn hơn? Dựa trên mô hình cây quyết định chúng ta khó có thể xác định được. Cũng chính vì thế, để diễn giải kết quả phân tích hồi quy, hoặc mô tả mối quan hệ theo cách định lượng hóa, thì mô hình cây quyết định thường không được phổ biến hay ưu tiên áp dụng, mà thay vào đó là sử dụng những phương trình hay mô hình hồi quy bao gồm các công thức định lượng mối quan hệ giữa các biến, các phương pháp kiểm định để chắc chắn các biến có mối liên hệ, và kết hợp với những đồ thị trực quan.
Phần 2 bài viết, chúng ta sẽ tìm hiểu về cách thức xác định mối quan hệ giữa 2 biến đơn giản bất kỳ, sử dụng Correlation và Regression (dạng đầu tiên Simple linear regression).
Correlation và Regression là gì?
Có lẽ sẽ có bạn thắc mắc tại sao trọng tâm bài viết là về Regression nhưng chúng tôi lại đề cập về phương pháp phân tích sự tương quan, Correlation, đầu tiên. Đơn giản, chúng ta có thể xác định biến mục tiêu và biến độc lập có quan hệ với nhau hay không và quan hệ như thế nào về mặt định lượng chỉ bằng phương pháp hồi quy. Tuy nhiên trong những trường hợp chúng ta muốn tìm hiểu nhanh liệu 2 biến bất kỳ có quan hệ với nhau, mức độ quan hệ ra sao hay không mà chưa cần dùng đến phương pháp hồi quy phức tạp hay muốn kiểm chứng từ phương trình hồi quy lần nữa xem 2 biến có quan hệ với nhau không, thì phương pháp phân tích tương quan sẽ cho chúng ta kết quả nhanh chóng. Qua các giải thích trên chắc các bạn đã phần nào hiểu được phân tích tương quan là gì.
Correlation là phương pháp nghiên cứu mối quan hệ tuyến tính giữa 2 hay nhiều biến khác nhau, dựa trên đo lường mức độ quan hệ, hay cường độ quan hệ tuyến tính.
Điểm khác biệt thứ nhất giữa tương quan và hồi quy mà chúng tôi trình bày trong bài viết này, đó là Correlation không quan tâm biến nào sẽ là biến độc lập và biến nào sẽ là biến phục thuộc, các biến ở vị thế “ngang nhau”, tức biến này có thể tác động lên biến kia và ngược lại, còn Regression chỉ quan tâm đến biến mục tiêu, tìm hiểu xem các biến khác sẽ tác động ra sao lên biến mục tiêu này.
Correlation sử dụng hệ số tương quan (Correlation Coefficient) và phương pháp kiểm định hệ số tương quan để xem xét giữa các biến có mối quan hệ tương quan hay nhau. Lưu ý lần nữa, tương quan theo nghĩa tiếng Việt đơn giản là tác động qua lại giữa hai phía, nghĩa là phương pháp này có thể xem xét mối liên hệ theo 2 chiều, còn Regression thì thể hiện khía cạnh 1 chiều (biến độc lập tác động thế nào đến biến mục tiêu chứ không xét ngược lại).
Regression là phương pháp nghiên cứu mối quan hệ giữa 2 biến mà cụ thể một biến sẽ là biến độc lập (ảnh hưởng đến biến mục tiêu), và biến còn lại sẽ là biến mục tiêu (bị ảnh hưởng bởi biến độc lập), mô hình hóa, định lượng hóa mối quan hệ này để qua đó có thể xác định được giá trị của biến mục tiêu nếu các biến độc lập thay đổi như thế nào.
Điểm khác biệt thứ hai, có thể là khác biệt lớn nhất đó chính là kết quả của phân tích hồi quy, chính là kết quả dự báo của biến mục tiêu. Đây là cơ sở để Regression còn là phương pháp chính trong Predictive analytics (phân tích dự báo) bên cạnh là kiến thức nền tảng trong lĩnh vực thống kê (Statistics) và khai phá dữ liệu (Data mining). Còn kết quả của Correlation chỉ dừng lại ở việc đánh giá có mối quan hệ giữa 2 biến hay không, đo lường chiều hướng và tính bền vững trong mối quan hệ này. Cụ thể hệ số tương quan của Correlation sẽ nằm từ -1 đến 1:
Giải thích một chút về từ quan hệ tuyến tính (linear relationship), như các bạn đã từng được học ở các lớp phổ thông hay trung học về đồ thị hàm số, cho các giá trị của x và các giá trị y tương ứng, nhiệm vụ là tìm phương trình và vẽ đồ thị. Nếu phương trình mà các bạn lập được thành công, và đồ thị các bạn vẽ được là một đường thẳng thì lúc này các bạn đã chứng minh giữa x và y đã có mối quan hệ tuyến tính (chưa xét đến nghịch hay thuận).
Nhưng đó chỉ là bài toán rất đơn giản để chúng ta hiểu thế nào là mối quan hệ tuyến tính giữa x và y. Trong thực tế, khi tìm hiểu về mối quan hệ giữa 2 hay nhiều đối tượng, hiện tượng nghiên cứu khác nhau ở mọi lĩnh vực và đảm bảo kết quả chính xác thì dữ liệu cần phân tích là rất nhiều, do đó các công thức tính toán như trước đây chúng ta từng được học sẽ không thể nào áp dụng. Lúc này phương pháp Correlation và Regression sẽ cực kỳ hữu dụng. Giả sử chúng ta có một tập dữ liệu gồm nhiều giá trị x, và tương ứng với mỗi giá trị x là một giá trị, chúng ta sẽ có các điểm dữ liệu gọi là Mi (xi, yi), nếu các điểm dữ liệu này nằm trên cùng một đường thẳng chứng tỏ x và y có quan hệ tuyến tính và ngược lại.
Giá trị x tăng thì y tăng theo, lúc này x và y có quan hệ tuyến tính thuận, hệ số tương quan sẽ lớn hơn 0 nhưng chưa chắc tiến gần 1, chưa có cơ sở khẳng định mối quan hệ này vững chắc.
Hình trên thì x và y không thể hiện mối quan hệ tuyến tính, lúc này hệ số tượng quan có thể gần giá trị 0.
Giá trị x giảm, giá trị y lại tăng, x và y thể hiện mối quan hệ tuyến tính nghịch, lúc này hệ số tương quan sẽ mang giá trị âm và nhỏ hơn 0, nhưng chưa chắn tiến gần giá trị -1 và không có cơ sở khẳng định mối quan hệ này là bền vững.
Giá trị x tăng, y chắc chắn sẽ tăng, lúc này x và y thể hiện mối quan hệ tuyến tính thuận và cực kỳ bền vững và hoàn hảo, lúc này giá trị của hệ số tương quan có thể bằng 1.
Giá trị của x giảm, và y chắc chắn tăng, lúc này giữa x và y thể hiện mối quan hệ tuyến tính nghịch, và mối quan hệ này bền vững, giá trị của hệ số tương quan sẽ bằng -1. Công thức của hệ số tương quan tổng quát như sau:
Với Sxy là hiệp phương sai (Covariance) của x và y, Sx là độ lệch chuẩn của các giá trị x, Sy là độ lệch chuẩn của các giá trị y. Hiệp phương sai của x và y cũng là một chỉ số thể hiện sự tương quan của 2 biến bất kỳ. Bên cạnh việc tính toán hệ số tương quan, chúng ta còn có thể sử dụng phương pháp kiểm định giả thuyết t để củng cố kết luận của mình. Lưu ý công thức ở trên áp dụng cho xác định mối quan hệ giữa x và y cho bộ dữ liệu mẫu (Sample) không phải dữ liệu tổng thể.
Ở bài viết sắp tới về cách phân tích mối quan hệ giữa 2 biến bất kỳ, chúng tôi sẽ trình bày lại Correlation trong ví dụ cụ thể, tương tự như dạng đầu tiên của Regression là Simple linear regression. Còn ở phần 1 kỳ này chúng tôi chỉ dừng lại ở phần giới thiệu mà thôi.
Correlation và Regression là 2 phương pháp thường song hành nhau trong lĩnh vực thống kê. Ví dụ như nếu chỉ sử dụng Correlation, và nhìn vào biểu đồ hay giá trị của hệ số tương quan chúng ta sẽ thấy được mối quan hệ tuyến tính giữa x và y chỉ trong dữ liệu lịch sử, vậy muốn lập phương trình, muốn đưa ra dự báo về giá trị y khi trong tương lai giá trị x thay đổi một lượng bất kỳ, thì chúng ta phải sử dụng phương pháp Regression. Đối với dạng tuyến tính cho 2 biến, thì chúng ta có phương trình hồi quy tổng quát, và đơn giản nhất của Regression như sau:
Với y là biến phụ thuộc (chịu ảnh hưởng của biến x), là biến chúng ta sẽ dự báo giá trị, x là biến độc lập (biến tác động lên biến phụ thuộc), β0 là giá trị ước lượng của y khi x đạt giá trị 0, β1 là độ dốc của đường hồi quy tuyến tính, nói cách khác là mức độ thay đổi của y khi x thay đổi 1 đơn vị, ε là sai số, thể hiện giá trị của các yếu tố khác không thể nghiên cứu hết và các yếu tố này vẫn tác động lên giá trị của y.
Cách xác định các tham số sẽ được chúng tôi trình bày ở bài viết sắp tới. Tuy nhiên trong thực tế chúng ta không chỉ có nghiên cứu mối quan hệ giữa 2 biến độc lập và biến phụ thuộc, mà còn nghiên cứu mối quan hệ của nhiều biến độc lập và biến phụ thuộc, và không chỉ có mối quan hệ tuyến tính mà còn nhiều mối quan hệ phức tạp hơn giữa các biến mà chúng ta phải khai phá. Chính vì thế chúng ta có nhiều phương trình hồi quy và nhiều đồ thị trực quan thể hiện các phương trình từ đơn giản đến phức tạp khác nhau. Do đó mặc dù là kiến thức nền tảng và xuất hiện đầu tiên trong lĩnh vực thống kê (Statistics) nhưng Regression với nhiều dạng khác nhau, được ứng dụng nhiều trong các lĩnh vực khác nhau không chỉ riêng ở lĩnh vực khoa học dữ liệu.
Các dạng, các loại mô hình (phương trình) hồi quy phổ biến
Các mô hình hồi quy có thể được phân loại theo nhiều cách như các mô hình tuyến tính (linear) và phi tuyến tính (non-linear); các mô hình áp dụng cho biến định lượng và các mô hình áp dụng cho biến định tính; các mô hình áp dụng cho phân tích mối quan hệ giữa 2 biến hay nhiều hơn 2 biến; các mô hình có tham số và không có tham số; các mô hình cổ điển và hiện đại (những mô hình mở rộng).
Linear Regression
Simple linear regression, đây được xem là mô hình hồi quy đơn bội, đơn giản nhất và phổ biến nhất, chỉ nghiên cứu mối quan hệ tuyến tính giữa một biến độc lập và biến phụ thuộc, áp dụng cho biến định lượng, và đồ thị là dạng đường thẳng
Phương trình tổng quát:
Đồ thị minh họa
Multiple regression (Multi linear regression), mô hình hồi quy đa bội áp dụng cho nghiên cứu mối quan hệ của nhiều biến độc lập và một biến phụ thuộc, áp dụng cho biến định lượng. Phương trình tổng quát:
Đồ thị minh họa (nguồn hình Analyticsvidhya post – Medium)
Logistic Regression
Mô hình hồi quy Logit áp dụng cho biến phụ thuộc là biến định đính hoặc định lượng chỉ có 2 giá trị, hay còn gọi là biến thay phiên (Binary) ví dụ y chỉ có 2 giá trị là 0 và 1, có hoặc không,… Phương trình tổng quát: Logistic Regression cho đơn biến
Logistic Regression cho mô hình đa biến
(Nguồn hình: En.wikipedia)
Polynominal Regression
Mô hình hồi quy Polynominal áp dụng cho các trường hợp mà biến độc lập x có bậc mũ lớn hơn 1, và y là biến định lượng. Phương trình tổng quát:
Đồ thị của mô hình hồi quy này không phải đường thẳng, và là một đường cong, do đó đây không phải dạng hồi quy tuyến tính.
Đồ thị minh họa:
(Nguồn hình towardsdatascience )
Quantile Regression
Là dạng mô hình hồi quy mở rộng của hồi quy tuyến tính – Linear regression, tìm hiểu mối quan hệ tuyến tuyến giữa biến độc lập và biến phụ thuộc trong trường hợp bộ dữ liệu có các giá trị ngoại lệ (outliers), độ lệch/ chệch cao của phân phối dữ liệu (high skewness), mức độ không đồng nhất của dữ liệu. Mô hình dựa trên xem xét phân phối tổng thể của dữ liệu, không chỉ sử dụng mỗi giá trị trung bình để tính toán, xây dựng công thức như trong linear regression.
Quantile chính là phân vị trong lĩnh vực thống kê, là phương pháp xác định với n % bất kỳ của bộ dữ liệu thì phân phối các giá trị của dữ liệu trong n % là như thế nào (các giá trị đãđược sắp xếp từ nhỏ đến lớn) để đánh giá độ phân tán của dữ liệu, và tại phân vị thứ n này giá trị đạt được của biến là bao nhiêu. Phương trình tổng quát của Quantile Regression tương tự như Linear regression, và y biến định lượng liên tục (Continuous varibale), tuy nhiên Quantile Regression hướng đến giảm thiểu sai số của mô hình với công thức tổng quát như sau: Phương trình tổng quát:
Công thức tính sai số có trọng số theo mô hình hồi quy
Với τ là phân vị cần xét của tập dữ liệu.
Đồ thị minh họa:
Ridge Regression (Shrinkage regression)
Mô hình Ridge Regression là phương pháp áp dụng khi bộ dữ liệu gặp vấn đề về đa cộng tuyến (các biến độc lập x có mối liên hệ với nhau, và ảnh hưởng lên kết quả dự báo của y), hay giải quyết các vấn đề về Overfitting (mô hình áp dụng tốt cho dữ liệu training nhưng không không hoạt động tốt trên dữ liệu test) mà mô hình hồi quy tuyến tính thông thường gặp phải. Phương trình tổng quát của linear regression cho đơn biến và đa biến các bạn có thể để ý sẽ thấy giá trị ε ở đằng sau mỗi phương trình.
Đậy là sai số của các phương trình hồi quy, là chênh lệch giữa kết quả dự báo và kết quả thực tế. Các sai số được chia thành 2 phần: Biased (thiên vị), Variance (phương sai). Biased là trường hợp mô hình phân tích không khớp, không đem lại kết quả chính xác trên tập dữ liệu training, còn Variance là đối với dữ liệu test. Mối quan hệ đánh đổi giữa Biased và Variance xét trên mức độ phức tạp của mô hình, chúng tôi sẽ đề cập vấn đề này trong chính bài viết về Ridge regression sắp tới.
Nguồn hình chúng tôi
Ridge Regression là mô hình hồi quy phân tích mối quan hệ giữa các biến độc lập và biến phụ thuộc sử dụng phương pháp Regularization, điều chỉnh mô hình sao cho giảm thiểu các vấn đề Overfitting, tối ưu hay kiểm soát mức độ phức tạp của mô hình để cân đối giữa Biased và Variance qua đó giảm sai số của mô hình. Công thức tổng quát của mô hình:
Hệ số lambda còn gọi là tham số Regularization, hay tham số Penalty, hay tham số Shrinkage, là số luôn dương, là giá trị mà ở đó phương trình tuyến tính sẽ được “tinh chỉnh” sao cho sai số của mô hình được giảm tối đa, nghĩa là giá trị lambda nào mà mô hình đạt MSE (Mean Square Error) sẽ được chọn, wj là hệ số β của phương trình hồi quy tuyến tính.
Cách triển khai công thức như thế nào, áp dụng phương pháp Regularization chúng tôi sẽ trình bày lại ở bài viết về Ridge Regression. Đồ thị minh họa:
Nguồn hình: stats.stackexchange.com
Lasso Regression
Lasso viết tắt của Least Absolute Shrinkage and Selection Operator, là phương pháp gần giống với Ridge Regression, cũng hạn chế sự khác biệt, chênh lệch giữa kết quả dự báo và kết quả thực tế của mô hình hồi quy tuyến tính, gia tặng độ chính xác của mô hình.
Công thức tổng quát của Lasso Regression khác một chút ở phía cuối công thức, thay vì bình phương wj, hay chính là hệ số β như Ridge Regression, thì ở đây công thức Lasso lấy trị tuyệt đối.
Elastic Net Regression
Là mô hình hồi quy kết hợp mô hình Lasso và Ridge để xây dựng mô hình hồi quy xử lý vấn đề các biến độc lập x có mối quan hệ tương quan với nhau dẫn đến kết quả dự báo cho biến phụ thuộc y bị ảnh hưởng. Công thức tổng quát:
Poisson Regression
Mô hình hồi quy Poisson áp dụng cho trường hợp biến phụ thuộc, biến y mang giá trị là các số đếm, tức biến định lượng dạng rời rạc có thể đếm được, ví dụ 0, 1, 2, 3, 4. Để áp dụng mô hình hồi quy Poisson thì giá trị của biến y phải có phân phối Poisson, và là số nguyên dương.
Công thức phân phối Poisson của một giá trị x bất kỳ
Với e là hằng số Nepe gần bằng 2.71828 µ là E(x) và là trung bình của x được tính bằng n*p, ở một số tài liệu thống kê khác µ chính là λ Giá trị kỳ vọng E(x) = µ = λ, phương sai Var (x) = λ = µ. Chúng ta áp dụng cho giá trị y thì được, P là xác suất của một giá trị y = k bất kỳ
Ghép vào mô hình hồi quy với hệ số β và từng biến xi để xác định giá trị kỳ vọng cho từng giá trị của biến y. Phương trình tổng quát
Cox Regression
Mô hình hồi quy Cox áp dụng cho loại dữ liệu theo thời gian, được dùng trong phân tích sống sót “Survival analysis” ví dụ như phân tích rủi ro khách hàng rời dịch vụ theo thời gian, thời gian bệnh nhân tính từ lúc bệnh nhân bắt đầu điều trị ung thư cho đến khi qua đời,…Tức y lúc này có thể chỉ mang 2 giá trị “còn” và “không”, “sống” và “chết”, “đã rời dịch vụ” và “chưa rời dịch vụ”. Mô hình tổng quát của Cox regression sẽ có dạng:
Đồ thị minh họa:
(nguồn hình: chúng tôi
Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.
Hướng Dẫn Phân Tích Logistic Regression
Bài này sẽ hướng dẫn thực hành từng bước hồi quy nhị phân trong Stata, có hình ảnh và dữ liệu minh họa, đồng thời giải thích ý nghĩa kết quả output của hồi quy.(Nhóm MBA Bách Khoa Hỗ Trợ Stata)
Hồi quy logistic, còn được gọi là mô hình hồi quy logit, hay hồi quy nhị phân, được sử dụng để dự đoán mô hình mà biến phụ thuộc dạng nhị phân 0 hoặc 1. Trong mô hình logit “log odds” của biến phụ thuộc được mô phỏng như một sự kết hợp tuyến tính của các biến độc lập.
Ở nước Mỹ, việc xét duyệt vào một số trường Đại Học chỉ xét điểm số, và 1 số điểm khác chứ không tổ chức thi trực tiếp như ở Việt Nam. Học Trung Học xong sẽ làm đơn, nộp các bằng cấp chứng chỉ cần thiết để trường Đại Học xét đậu hay rớt vào trường Đại Học đó.
Một nhà nghiên cứu quan tâm đến mô hình hồi quy nhị phân như sau:
Được chấp nhận/ không được chấp nhận vào trường Đại Học. Biến này là một biến nhị phân.
Dữ liệu có thể được lấy ở đây bằng lệnh sau:
Sau đó thực hiện chạy thống kê mô tả, tần số biến
Sử dụng lệnh logit để ước lượng hồi quy nhị phân
logit admit gre gpa i.rankHoặc dùng giao diện
Nhập vào giá trị ô độc lập và phụ thuộc các tên biến như trong hình
Number of obs = 400 : có 400 quan sát
Trong bảng kết quả có hệ số coefficients, sai số chuẩn standard errors, kiểm định z z-statistic, p-values, và 95% confidence interval of the coefficients. Cả hai biến GRE và GPA đều có ý nghĩa thống kê, cũng như ba chỉ báo của biến RANK ( chỉ báo 2 3 4). Có ý nghĩa thống kê hay không do ta nhìn vào giá trị p-values, chính là cột , nếu giá trị này bé hơn 0.05 là quan hệ đó có ý nghĩa thống kê. Hệ số hồi quy coefficients cho biến sự thay đổi của LOG ODDS của biến phụ thuộc khi biến độc lập tăng 1 đơn vị. Cụ thể như sau:
- Khi biến độc lập GRE tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC ( SO VỚI KHÔNG ĐƯỢC CHẤP NHẬN) tăng 0.002.
- Khi biến độc lập GPA tăng 1 đơn vị thì LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC tăng 0.804
- Biến RANK là biến phân loại trường học, có cách phân tích khác. Học sinh đã học trường trung học loại 2 so với trường loại 1 sẽ giảm LOG ODDS của ĐƯỢC CHẤP NHẬN VÀO HỌC giá trị là 0.675
Muốn kiểm tra tác động chung của biến RANK, dùng lệnh test , Ta thấy biến rank có tác động có ý nghĩa thống kê đến biến phụ thuộc như sau:
Ta có thể lấy lũy thừa cơ số e của hệ số coefficients ( dùng hàm EXP() trong excel) , lúc đó giá trị mới là odds-ratios. Phần mềm Stata sẽ tự tính giá trị odd-ratios luôn bằng cách gõ lệnh sau:
Giờ thì kết luận kiểu khác, khi GPA tăng 1 đơn vị thì ODDS của việc được chấp nhận vào học Đại Học( so với không được chấp nhận vào học Đại Học) tăng một lượng 2.234545
Theo quan sát thực tế, có 254+19 = 273 học sinh rớt đại học, và có 97+30=127 học sinh đậu đại học. Tuy nhiên theo dự đoán có 254+97 = 351 bị rớt, và 19+30=49 học sinh đậu.
Như vậy trong 273 em bị rớt, có 254 trường hợp dự đoán đúng, như vậy tỷ lệ dự đoán đúng là 254/273=93% . Trong 127 em đậu đại học, dự đoán đúng 30 em, như vậy tỉ lệ dự đoán đúng là 30/127=23.6% . Vậy trung bình tỉ lệ dự đoán đúng là (254+30)/(254+30+97+19) = 71% . Ba giá trị này được tô màu đỏ phía trên. Dựa vào đây có thể kết luận tỉ lệ dự đoán đúng là bao nhiêu phần trăm, xem mô hình có sử dụng được không.
Phân Tích Các Chương Trình Đệ Quy
Phương trình đệ quy là một phương trình biểu diễn mối liên hệ giữa T(n) và T(k), trong đó T(n) là thời gian thực hiện chương trình với kích thước dữ liệu nhập là n, T(k) thời gian thực hiện chương trình với kích thước dữ liệu nhập là k, với k < n. Ðể thành lập được phương trình đệ quy, ta phải căn cứ vào chương trình đệ quy.
Thông thường một chương trình đệ quy để giải bài toán kích thước n, phải có ít nhất một trường hợp dừng ứng với một n cụ thể và lời gọi đệ quy để giải bài toán kích thước k (k<n).
Để thành lập phương trình đệ quy, ta gọi T(n) là thời gian để giải bài toán kích thước n, ta có T(k) là thời gian để giải bài toán kích thước k. Khi đệ quy dừng, ta phải xem xét khi đó chương trình làm gì và tốn hết bao nhiêu thời gian, chẳng hạn thời gian này là c(n). Khi đệ quy chưa dừng thì phải xét xem có bao nhiêu lời gọi đệ quy với kích thước k ta sẽ có bấy nhiêu T(k). Ngoài ra ta còn phải xem xét đến thời gian để phân chia bài toán và tổng hợp các lời giải, chẳng hạn thời gian này là d(n).
Dạng tổng quát của một phương trình đệ quy sẽ là:
Trong đó C(n) là thời gian thực hiện chương trình ứng với trường hợp đệ quy dừng. F(T(k)) là một đa thức của các T(k). d(n) là thời gian để phân chia bài toán và tổng hợp các kết quả.
Ví dụ 1-10: Xét hàm tính giai thừa viết bằng giải thuật đệ quy như sau:
FUNCTION Giai_thua(n:Integer): Integer;
BEGIN
IF n=0 then Giai_thua :=1
ELSE Giai_thua := n* Giai_thua(n-1);
END;
Ðây là phương trình đệ quy để tính thời gian thực hiện của chương trình đệ quy Giai_thua.
Ví du 1-11: Chúng ta xét thủ tục MergeSort một cách phác thảo như sau:
FUNCTION MergeSort (L:List; n:Integer):List;
VAR L1,L2:List;
BEGIN
IF n=1 THEN RETURN(L)
ELSE BEGIN
Chia đôi L thành L1 và L2, với độ dài n/2;
RETURN(Merge(MergeSort(L1,n/2),MergeSort(L2,n/2)));
END;
END;
Hàm MergeSort nhận một danh sách có độ dài n và trả về một danh sách đã được sắp xếp. Thủ tục Merge nhận hai danh sách đã được sắp L1 và L2 mỗi danh sách có độ dài , trộn chúng lại với nhau để được một danh sách gồm n phần tử có thứ tự. Giải thuật chi tiết của Merge ta sẽ bàn sau, chúng ta chỉ để ý rằng thời gian để Merge các danh sách có độ dài là O(n).
Gọi T(n) là thời gian thực hiện MergeSort một danh sách n phần tử thì T( ) là thời gian thực hiện MergeSort một danh sách phần tử.
Có ba phương pháp giải phương trình đệ quy:
1.- Phương pháp truy hồi
2.- Phương pháp đoán nghiệm.
3.- Lời giải tổng quát của một lớp các phương trình đệ quy.
Phương pháp truy hồi
Ta có T(n) = T(n-1) + C 2
……
Quá trình trên kết thúc khi n – i = 0 hay i = n. Khi đó ta có
Ví dụ 1-13: Giải phương trình T(n) =
……….
Quá trình suy rộng sẽ kết thúc khi = 1 hay 2 i = n và do đó i = logn. Khi đó ta có:
Phương pháp đoán nghiệm
Ta đoán một nghiệm f(n) và dùng chứng minh quy nạp để chứng tỏ rằng T(n) ≤ f(n) với mọi n.
Thông thường f(n) là một trong các hàm quen thuộc như logn, n, nlogn, , , , n!,.
Ðôi khi chúng ta chỉ đoán dạng của f(n) trong đó có một vài tham số chưa xác định (chẳng hạn f(n) = an 2 với a chưa xác định) và trong quá trình chứng minh quy nạp ta sẽ suy diễn ra giá trị thích hợp của các tham số.
Ví dụ 1-12: Giải phương trình đệ quy T(n) =
Giả sử chúng ta đoán f(n) = anlogn. Với n = 1 ta thấy rằng cách đoán như vậy không được bởi vì anlogn có giá trị 0 không phụ thuộc vào giá trị của a. Vì thế ta thử tiếp theo f(n) = anlogn + b.
Với n = 1 ta có, T(1) = C 1 và f(1) = b, muốn T(1) ≤ f(1) thì b ≥ C 1 (*)
Giả sử rằng T(k) ≤ f(k), tức là T(k) ≤ aklogk + b với mọi k < n (giả thiết quy nạp). Ta phải chứng minh T(n) ≤ anlogn + b với mọi n.
Giả sử n ≥ 2, từ phương trình đã cho ta có T(n) = 2T( ) + C 2 n
T(n) ≤ (anlogn – an + 2b) + C 2 n
T(n) ≤ (anlogn + b) + [b + (C 2 – a)n] . Nếu lấy a ≥ C 2 + b (**) ta được
T(n) ≤ (anlogn + b) + (1-n) b
Nếu ta lấy a và b sao cho cả (*) và (**) đều thoả mãn thì T(n) ≤ an logn + b với mọi n.
Ta phải giải hệ Ðể đơn giản, ta giải hệ
Hay nói cách khác T(n) là O(nlogn).
Lời giải tổng quát cho một lớp các phương trình đệ quy
Khi thiết kế các giải thuật, người ta thường vận dụng phương pháp chia để trị mà ta sẽ bàn chi tiết hơn trong chương 3. Ở đây chi trình bày tóm tắt phương pháp như sau:
Giả thiết rằng mỗi bài toán con kích thước 1 lấy một đơn vị thời gian và thời gian để chia bài toán kích thước n thành các bài toán con kích thước và tổng hợp kết quả từ các bài toán con để được lời giải của bài toán ban đầu là d(n). (Chẳng hạn đối với ví dụ MergeSort, chúng ta có a = b = 2, và d(n) = C 2n. Xem C 1 là một đơn vị).
Tất cả các giải thuật đệ quy như trên đều có thể thành lập một phương trinh đệ quy tổng quát, chung cho lớp các bài toán ấy.
Nếu gọi T(n) là thời gian để giải bài toán kích thước n thì T( ) là thời gian để giải bài toán con kích thước . Khi n = 1 theo giả thiết trên thì thời gian giải bài toán kích thước 1 là 1 đơn vị, tức là T(1) = 1. Khi n lớn hơn 1, ta phải giải đệ quy a bài toán con kích thước , mỗi bài toán con tốn T( ) nên thời gian cho a lời giải đệ quy này là aT( ). Ngoài ra ta còn phải tốn thời gian để phân chia bài toán và tổng hợp các kết quả, thời gian này theo giả thiết trên là d(n).
Vậy ta có phương trình đệ quy:
Giả sử n = b k, quá trình suy rộng trên sẽ kết thúc khi i = k.
Xét ba trường hợp sau:
T(1) = 1
T(n) = 2T() + nlogn
Trong chương này, chúng ta cần phải nắm vững các ý sau:
1.- Sự phân tích, đánh giá giải thuật là cần thiết để lựa chọn giải thuật tốt, hoặc để cải tiến giải thuật.
2.- Sử dụng khái niệm độ phức tạp và ký hiệu ô lớn để đánh giá giải thuật.
3.- Đối với các chương trình không gọi chương trình con, thì dùng quy tắc cộng, quy tắc nhân và quy tắc chung để phân tích, tính độ phức tạp.
4.- Đối với các chương trình gọi chương trình con, thì tính độ phức tạp theo nguyên tắc “từ trong ra”.
5.- Đối với các chương trình đệ quy thì trước hết phải thành lập phương trình đệ quy, sau đó giải phương trình đệ quy, nghiệm của phương trình đệ quy chính là độ phức tạp của giải thuật.
6.- Khi giải một phương trình đệ quy không thuộc dạng phương trình tổng quát thì sử dụng phương pháp truy hồi hoặc phương pháp đoán nghiệm.
7.- Khi giải một phương trình đệ quy thuộc dạng phương trình tổng quát, nếu hàm tiến triển d(n) là một hàm nhân thì vận dụng công thức nghiệm của môt trong ba trường hợp để xác định nghiệm, còn nếu d(n) không phải là hàm nhân thì phải tính trực tiếp nghiệm riêng và so sánh với nghiệm thuần nhất để chọn nghiệm.
Bài 1: Tính thời gian thực hiện của các đoạn chương trình sau:
a) Tính tổng của các số
{1} Sum := 0;
{2} for i:=1 to n do begin
{3} readln(x);
{4} Sum := Sum + x;
end;
b) Tính tích hai ma trận vuông cấp n C = A*B:
{1} for i := 1 to n do
{2} for j := 1 to n do begin
{3} c[i,j] := 0;
{4} for k := 1 to n do
{5} c[i,j] := c[i,j] + a[i,k] * b[k,j];
end;
Bài 2: Giải các phương trình đệ quy sau với T(1) = 1 và
Bài 3: Giải các phương trình đệ quy sau với T(1) = 1 và
Bài 4: Giải các phương trình đệ quy sau với T(1) = 1 và
Bài 5: Giải các phương trình đệ quy sau bằng phương pháp đoán nghiệm:
Bài 6: Cho một mảng n số nguyên được sắp thứ tự tăng. Viết hàm tìm một số nguyên trong mảng đó theo phương pháp tìm kiếm nhị phân, nếu tìm thấy thì trả về TRUE, ngược lại trả về FALSE.
Sử dụng hai kĩ thuật là đệ quy và vòng lặp. Với mỗi kĩ thuật hãy viết một hàm tìm và tính thời gian thực hiện của hàm đó.
Bài 7: Tính thời gian thực hiện của giải thuật đệ quy giải bài toán Tháp Hà nội với n tầng?
Bài 8: Xét công thức truy toán để tính số tổ hợp chập k của n như sau:
Viết một hàm đệ quy để tính số tổ hợp chập k của n.
Tính thời gian thực hiện của giải thuật nói trên.
Soạn Bài Luyện Tập Phân Tích Và Tổng Hợp (Chi Tiết)
Lựa chọn câu để xem lời giải nhanh hơn
Câu 1
C âu 1 (trang 11 SGK Ngữ văn 9, tập 2):
Đọc đoạn trích sau và cho biết tác giả đã vận dụng phép lập luận nào và vận dụng như thế nào. Trả lời: Đoạn (a):
– Phép phân tích (theo lối diễn dịch).
– Trình tự phân tích:
+ Cái hay thể hiện ở sự phối hợp các màu xanh khác nhau
+ Cái hay thể hiện ở sự phối hợp các cử động nhỏ
+ Các hay thể hiện ở vần thơ
Đoạn (b):
– Phép phân tích kết hợp với tổng hợp.
– Trình tự phân tích:
+ Đoạn nhỏ mở đầu nêu ra các quan niệm mấu chốt của sự thành đạt.
+ Đoạn còn lại phân tích từng quan niệm đúng sai ra sao và cuối cùng đã chỉ ra: “Rút cuộc, mấu chốt của sự thành đạt bản thân chủ quan mỗi người, ở tinh thần kiên trì phấn đấu học tập không mệt mỏi, lại phải trau dồi dạo đức cho tốt đẹp” nghĩa là phân tích bản thân chủ quan của mỗi người.
Câu 2
C âu 2 (trang 12 SGK Ngữ văn 9, tập 2):
Hiện nay có một số học sinh học qua loa, đối phó, không học thật sự. Em hãy phân tích bản chất của lối học đối phó để nêu lên những tác hại của nó. Trả lời:
– Bản chất của học đối phó:
+ Học đối phó là học cốt để ứng phó với kiểm tra, thi cử.
+ Học đối phó không xem việc học là mục đích, không chủ động học, thường xuyên hãng ngày không học mà chỉ đến thi, sắp kiểm tra mới học.
+ Học đối phó dễ dẫn đến nghe ngóng, đoán đề, học tủ.
– Tác hại:
+ Đối với xã hội: Trở thành gánh nặng cho xã hội
+ Đối với bản thân: Không có hứng thú học tập, kết quả học tập ngày càng thấp, không có ích đối với xã hội.
– Có bằng cấp nhưng đầu óc rỗng tuếch, có thói học hành làm việc tắc trách.
Câu 3
C âu 3 (trang 12 SGK Ngữ văn 9, tập 2):
Dựa vào văn bản Bàn về đọc sách của Chu Quang Tiềm, em hãy phân tích các lí do khiến mọi người phải đọc sách. Trả lời:
– Sách vở nhiều, sức đọc, thời gian đọc của người ta chì có hạn do đó phải chọn lọc sách mà đọc.
– Chất lượng sách vở khác nhau, đa dạng, phong phú, vì vậy phải chọn sách hay và cần thiết để đọc. Không lãng phí sức đọc vào những quyển sách không thật sự cần thiết.
– Đọc sách phải đọc kĩ và hiểu sâu, do đó phải chọn lọc sách để đọc.
– Bên cạnh đọc sâu cũng cần đọc rộng, do đó phải chủ động lựa chọn những sách đọc cần thiết.
Câu 4 Câu 4 (trang 12 SGK Ngữ văn 9, tập 2): Hãy viết đoạn văn tổng hợp những điều đã phân tích trong bài Bàn về đọc sách. Trả lời:
Biết cách đọc sách để xây dựng học vấn là những ý kiến gợi mở cách đọc sách, cách tự học, cách suy nghĩ cho mỗi chúng ta. Đó là bài học, là lời khuyên chí lí, chân thành. Một nét đặc sắc trong bài Bàn về đọc sách là tác giả đã sử dụng khá hóm hỉnh một số so sánh khi nói về phương pháp đọc sách, làm cho lí lẽ thêm phần gợi cảm, thấm thía. Như thế, muốn đọc sách cho có hiệu quả thiết thực, chúng ta ngoài việc lựa chọn những sách quan trọng để đọc sâu đọc kĩ, còn phải chú trọng đến một số sách nhằm đọc rộng hỗ trợ cần thiết cho việc nghiên cứu sâu.
chúng tôi
Bạn đang đọc nội dung bài viết Tổng Quan Về Regression (Phân Tích Hồi Quy) trên website Asianhubjobs.com. Hy vọng một phần nào đó những thông tin mà chúng tôi đã cung cấp là rất hữu ích với bạn. Nếu nội dung bài viết hay, ý nghĩa bạn hãy chia sẻ với bạn bè của mình và luôn theo dõi, ủng hộ chúng tôi để cập nhật những thông tin mới nhất. Chúc bạn một ngày tốt lành!