Моделі та методи прогнозування успішності здобувачів освіти на основі машинного навчання

Пилипенко, Владислав Ігорович

Будь ласка, використовуйте цей ідентифікатор, щоб цитувати або посилатися на цей матеріал: https://er.knutd.edu.ua/handle/123456789/34493

Повний запис метаданих

Поле DC	Значення	Мова
dc.contributor.advisor	Стаценко, Володимир Володимирович	-
dc.contributor.author	Пилипенко, Владислав Ігорович	-
dc.date.accessioned	2026-06-30T07:29:38Z	-
dc.date.available	2026-06-30T07:29:38Z	-
dc.date.issued	2026	-
dc.identifier.citation	Пилипенко В. І. Моделі та методи прогнозування успішності здобувачів освіти на основі машинного навчання : дис. ... д-ра філософії : 122 - Комп’ютерні науки ; галузь знань 12 – Інформаційні технології / Пилипенко Владислав Ігорович ; наук. кер. В. В. Стаценко ; КНУТД. - Київ, 2026. - 209 л.	uk
dc.identifier.uri	https://er.knutd.edu.ua/handle/123456789/34493	-
dc.description.abstract	Дисертаційна робота присвячена вирішенню актуальної науково-практичної задачі покращення точності прогнозування академічної успішності студентів за допомогою моделей машинного навчання на основі даних взаємодії з відеонавчальним контентом у системі управління навчанням Moodle. Дисертаційне дослідження присвячене розв’язанню актуального науково-практичного завдання підвищення точності прогнозування академічної успішності здобувачів освіти із використанням методів машинного навчання в системах управління навчанням, що розглядаються як інструмент раннього виявлення ризиків академічної неуспішності. Основна частина роботи складається зі вступу, чотирьох розділів та висновків. У вступі розглянуто актуальність теми дисертаційного дослідження, сформульовано мету, завдання дослідження, необхідні для її досягнення, виділено наукову новизну отриманих результатів та їх практичну цінність. У першому розділі дисертаційної роботи виконано аналітичний огляд сучасних наукових підходів та інформаційних технологій у сфері прогнозування академічної успішності здобувачів освіти в системах дистанційного навчання. Досліджено особливості структури, організації та накопичення даних у системах управління навчанням, зокрема LMS Moodle, а також визначено основні категорії освітніх даних, що можуть бути використані для задач освітньої аналітики та прогнозування. Проаналізовано сучасні методи обробки великих даних, підходи до попередньої обробки та формування ознакового простору, а також методи інтелектуального аналізу даних і машинного навчання, що застосовуються для прогнозування академічної успішності студентів. Виконано систематизацію сучасних досліджень у даній предметній області, розглянуто переваги та обмеження існуючих моделей прогнозування, а також проаналізовано типи даних, що використовуються у відповідних дослідженнях. За результатами аналізу встановлено, що більшість існуючих підходів ґрунтуються переважно на використанні традиційних освітніх показників, тоді як поведінкові характеристики взаємодії студентів із навчальним контентом, зокрема відеоматеріалами, залишаються недостатньо дослідженими. Це обумовлює актуальність використання поведінкової освітньої аналітики та методів машинного навчання для підвищення точності прогнозування академічної успішності студентів. На основі проведеного аналізу сформульовано мету, задачі, об’єкт та предмет дисертаційного дослідження, а також обґрунтовано доцільність розроблення ансамблевих моделей прогнозування на основі інтеграції освітніх та поведінкових даних. У другому розділі дисертаційної роботи досліджено сучасні методи та алгоритми машинного навчання, що використовуються для розв’язання задач класифікації та прогнозування академічної успішності здобувачів освіти. Проведено порівняльний аналіз моделей на основі логістичної регресії (Logistic Regression), наївного баєсівського класифікатора (Naive Bayes), методу опорних векторів (Support Vector Machines), випадкового лісу (Random Forest) та нейронних мереж (Neural Network). Розглянуто принципи побудови моделей класифікації, особливості їх застосування в задачах освітньої аналітики, а також методи оцінювання ефективності моделей машинного навчання. Для забезпечення коректності порівняльного аналізу всі моделі були навчено та протестовано на однаковому наборі даних із використанням єдиної стратегії формування тренувальної та тестової вибірок. Проведено експериментальне дослідження ефективності алгоритмів класифікації на основі показників навчальної активності студентів, зокрема оцінок та відвідуваності занять. Оцінювання моделей виконувалося із застосуванням метрик Accuracy, Sensitivity, Specificity, F1-score та ROC-AUC, що дозволило комплексно оцінити якість класифікації та узагальнювальну здатність моделей. За результатами порівняльного аналізу встановлено, що алгоритми випадкового лісу та нейронних мереж забезпечують найкращі результати прогнозування академічної успішності студентів та характеризуються найбільш ефективним балансом між точністю класифікації й здатністю до узагальнення. Водночас виявлено обмежену здатність моделей до розпізнавання студентів групи ризику, що обумовлює необхідність подальшого вдосконалення моделей шляхом розширення ознакового простору, оптимізації параметрів та використання ансамблевих підходів машинного навчання. Отримані результати стали основою для подальшого дослідження поведінкових характеристик взаємодії студентів із навчальним контентом та розроблення ансамблевої стекінгової моделі прогнозування академічної успішності. У третьому розділі, досліджено вплив поведінкових характеристик взаємодії студентів із навчальними відеоматеріалами на якість прогнозування академічної успішності. Для побудови моделей прогнозування використано інтегрований набір ознак, що включає показники відвідуваності занять, академічних оцінок та поведінкової активності під час перегляду навчальних відеоматеріалів. Дані про взаємодію користувачів із відеоматеріалами отримано з електронного журналу, бази даних LMS Moodle та розробленого плагіну VideoPlayer, інтегрованого в систему управління навчанням університету. На основі отриманих подій взаємодії сформовано додатковий ознаковий простір, який включає показники переглядів, тривалості перегляду, пауз, перемотувань та повторних переглядів відеоконтенту. У розділі проведено побудову та дослідження моделей машинного навчання для прогнозування академічної успішності студентів із використанням розширеного набору поведінкових та освітніх ознак. Результати експериментального дослідження показали, що використання поведінкової освітньої аналітики дозволяє суттєво підвищити якість прогнозування. Зокрема, моделі на основі випадкового лісу та нейронних мереж продемонстрували найвищі показники точності – 87.1% та 85.3% відповідно, що перевищує результати логістичної регресії та наївного баєсівського класифікатора в середньому на 8.5%. Встановлено, що додавання поведінкових ознак взаємодії з відеонавчальним контентом забезпечує приріст загальної точності прогнозування приблизно на 10%, підвищення збалансованої точності на 15%, а також збільшення значення ROC-AUC на 14%, що підтверджує високу інформативність поведінкових характеристик у задачах освітньої аналітики. Для підвищення точності прогнозування та зменшення похибки узагальнення у роботі запропоновано дворівневу ансамблеву стекінгову модель, побудовану на основі комбінування базових моделей різної природи, зокрема логістичної регресії, наївного баєсівського класифікатора та випадкового лісу. Як мета-модель використано алгоритм градієнтного бустингу, що забезпечує інтеграцію результатів базових класифікаторів та компенсацію їхніх похибок. Проведений порівняльний аналіз показав, що запропонована стекінгова модель забезпечує найкращі результати прогнозування серед усіх досліджених підходів, досягаючи загальної точності 90.2%, чутливості 97.5%, збалансованої точності 85% та ROC-AUC 92.6%, що свідчить про високу узагальнювальну здатність та ефективність ансамблевого підходу в задачах прогнозування академічної успішності здобувачів. У четвертому розділі представлено функціональну та програмну реалізацію системи збору й аналізу поведінкової освітньої аналітики, а також інтеграцію розробленого плагіну відеоплеєра в систему управління навчанням Moodle. Реалізований програмний модуль забезпечує автоматизований збір показників взаємодії користувачів із навчальними відеоматеріалами, зокрема даних про тривалість перегляду, паузи, перемотування та повторні перегляди, які використовуються для побудови моделей прогнозування академічної успішності студентів. Наведено принципи організації зберігання та обробки освітніх і поведінкових даних у межах реалізованої системи прогнозування, в якій апробовано запропоновані методи та моделі машинного навчання. Додатково представлено програмний застосунок для формування аналітичної звітності та вибірок щодо академічної успішності здобувачів освіти, який забезпечує підтримку процесів моніторингу навчальної діяльності та аналізу результатів прогнозування.	uk
dc.description.abstract	The dissertation is devoted to solving the current scientific and practical problem of improving the accuracy of predicting the academic success of students using machine learning models based on data from interaction with video educational content in the Moodle learning management system. Contents of the abstract. The dissertation research is devoted to solving the current scientific and practical problem of increasing the accuracy of predicting the academic success of education seekers using machine learning methods in learning management systems, which are considered as a tool for early detection of risks of academic failure. The main part of the work consists of an introduction, four sections and conclusions. The introduction considers the relevance of the topic of the dissertation research, formulates the goal and objectives of the research necessary to achieve it, and highlights the scientific novelty of the results obtained and their practical value. The first section of the dissertation provides an analytical review of modern scientific approaches and information technologies in the field of predicting the academic success of students in distance learning systems. The features of the structure, organization and accumulation of data in learning management systems, in particular LMS Moodle, are studied, and the main categories of educational data that can be used for educational analytics and forecasting tasks are identified. Modern methods of big data processing, approaches to pre-processing and feature space formation, as well as methods of data mining and machine learning used to predict students' academic success are analyzed. Modern research in this are considered, and the types of data used in relevant studies are analyzed. The analysis results show that most existing approaches are based mainly on the use of traditional educational indicators, while the behavioral characteristics of students' interaction with educational content, in particular video materials, remain insufficiently studied. This determines the relevance of using behavioral educational analytics and machine learning methods to increase the accuracy of predicting students' academic success. Based on the analysis, the goal, objectives, object and subject of the dissertation research are formulated, and the feasibility of developing ensemble forecast ting models based on the integration of educational and behavioral data is substantiated. The second section of the dissertation explores modern machine learning methods and algorithms used to solve classification problems and predict academic success of students. A comparative analysis of models based on Logistic Regression, Naive Bayes classifier, Support Vector Machines, Random Forest, and Neural Networks is conducted. The principles of constructing classification models, the features of their application in educational analytics tasks, and methods for assessing the effectiveness of machine learning models are considered. To ensure the correctness of the comparative analysis, all models were trained and tested on the same data set using a single strategy for forming training and test samples. An experimental study of the effectiveness of classification algorithms based on indicators of student academic activity, in particular grades and class attendance, is conducted. The models were evaluated using the metrics Accuracy, Sensitivity, Specificity, F1-score and ROC-AUC, which allowed for a comprehensive assessment of the classification quality and generalization ability of the models. The results of the comparative analysis showed that the random forest and neural network algorithms provide the best results in predicting students' academic performance and are characterized by the most effective balance between classification accuracy and generalization ability. At the same time, the limited ability of the models to recognize students at risk was revealed, which necessitates further improvement of the models by expanding the feature space, optimizing parameters and using ensemble machine learning approaches. The results obtained became the basis for further research into the behavioral characteristics of students' interaction with educational content and the development of an ensemble stacking model for predicting academic performance. In the third section, the influence of behavioral characteristics of students' interaction with educational video materials on the quality of predicting academic success is investigated. To build prediction models, an integrated set of features was used, which includes indicators of class attendance, academic grades, and behavioral activity while watching educational video content. Data on user interaction with video materials were obtained from the electronic journal, the LMS Moodle database, and the developed VideoPlayer plugin integrated into the university's learning management system. Based on the obtained interaction events, an additional feature space was formed, which includes indicators of views, viewing duration, pauses, rewinds, and repeated viewings of video content. The section builds and studies machine learning models for predicting students' academic success using an expanded set of behavioral and educational features. The results of the experimental study showed that the use of behavioral educational analytics allows significantly improving the quality of prediction. In particular, models based on random forest and neural networks demonstrated the highest accuracy rates – 87.1% and 85.3%, respectively, which exceeds the results of logistic regression and naive Bayesian classifier by an average of 8.5%. It was found that adding behavioral features of interaction with educational video content provides an increase in the overall prediction accuracy by approximately 10%, an increase in balanced accuracy by 15%, as well as an increase in the ROC-AUC value by 14%, which confirms the high informativeness of behavioral characteristics in educational analytics tasks. To increase the prediction accuracy and reduce the generalization error, the paper proposes a two-level ensemble stacking model built on the basis of a combination of basic models of different nature, in particular, logistic regression, naive Bayesian classifier and random forest. The gradient boosting algorithm was used as a meta-model, which provides integration of the results of the basic classifiers and compensation of their errors. The comparative analysis showed that the proposed stacking model provides the best prediction results among all the studied approaches, achieving an overall accuracy of 90.2%, sensitivity of 97.5%, balanced accuracy of 85%, and ROC-AUC of 92.6%, which indicates a high generalization ability and effectiveness of the ensemble approach in the tasks of predicting students' academic performance. The fourth section presents the functional and software implementation of the system for collecting and analyzing behavioral educational analytics, as well as the integration of the developed video player plugin into the Moodle learning management system. The implemented software module provides automated collection of indicators of user interaction with educational video content, in particular data on viewing duration, pauses, rewinding and repeated viewings, which are used to build models for predicting students' academic performance. The principles of organizing the storage and processing of educational and behavioral data within the framework of the implemented forecasting system are presented, in which the proposed methods and models of machine learning are tested. Additionally, a software application is presented for generating analytical reporting and samples on the academic performance of education seekers, which provides support for the processes of monitoring educational activities and analyzing forecasting results.	uk
dc.language.iso	uk	uk
dc.subject	машинне навчання	uk
dc.subject	LMS Moodle	uk
dc.subject	прогнозування академічної успішності	uk
dc.subject	освітня аналітика	uk
dc.subject	ансамблеві моделі	uk
dc.subject	стекінг	uk
dc.subject	відеоаналітика	uk
dc.subject	логістична регресія	uk
dc.subject	градієнтний бустинг	uk
dc.subject	градієнтний бустинг	uk
dc.subject	machine learning	uk
dc.subject	educational analytics	uk
dc.subject	academic performance prediction	uk
dc.subject	ensemble models	uk
dc.subject	gradient boosting	uk
dc.subject	stacking	uk
dc.subject	random forest	uk
dc.subject	logistic regression,	uk
dc.title	Моделі та методи прогнозування успішності здобувачів освіти на основі машинного навчання	uk
dc.title.alternative	Models and methods for predicting student success based on machine learning	uk
dc.type	Thesis	uk
local.contributor.altauthor	Pylypenko, V. I.	-
local.thesis.degree	доктор філософії	uk
local.subject.faculty	Інститут інженерії та інформаційних технологій	uk
local.subject.department	Кафедра комп'ютерної інженерії та електромеханіки	uk
local.thesis.code	122 - Комп’ютерні науки	uk
local.thesis.code	12 – Інформаційні технології	uk
local.date.defense	2026	-
local.subject.method	0	uk
local.identifier.place	Київський національний університет технологій та дизайну	uk
Розташовується у зібраннях:	Автореферати та дисертації

Файли цього матеріалу:

Файл	Опис	Розмір	Формат
Pylypenko_dissertation.pdf		6,28 MB	Adobe PDF	Переглянути/Відкрити

Показати базовий опис матеріалу Перегляд статистики

Усі матеріали в архіві електронних ресурсів захищені авторським правом, всі права збережені.

DSpace JSPUI

DSpace зберігає і дозволяє легкий і відкритий доступ до всіх видів цифрового контенту, включаючи текст, зображення, анімовані зображення, MPEG і набори даних