N-ацетилирование лизина относится к общераспространенным процессам посттрансляционной модификации белка. В результате реакции между ε-аминогруппой боковой цепи лизина и активированным ацетилом образуется амидная связь, что приводит к изменению заряда белка в области сайта модификации. Интерес к изучению таких сайтов объясняется влиянием N-ацетилирования остатков лизина на регуляцию клеточной активности, нарушение которой может приводить к возникновению патологических состояний. Кроме того, предсказание сайтов N-ацетилирования остатка лизина служит инструментом при планировании эксперимента в современной протеомике, поскольку наличие прогноза позволяет упростить выбор стратегии протеолиза, интерпретацию спорных масс-спектров и подбор протеотипических пептидов. В работе представлен новый подход к предсказанию сайтов N-ацетилирования остатков лизина в белках человека с помощью методов машинного обучения. Особенностью подхода является использование структурных формул пептидов, содержащих потенциальный сайт N-ацетилирования, и их описание в виде дескрипторов многоуровневых атомных окрестностей (Multilevel Neighborhoods of Atoms, MNA). Такие дескрипторы рекурсивно генерируются для каждого атома молекулы. Дескриптором нулевого уровня считается сам атом, первого уровня – сам атом, а также все атомы, расположенные через одну связь от него, и так далее. Классификационные модели для предсказания сайтов N-ацетилирования остатков лизина были созданы с помощью разработанной ранее программы MultiPASS на основе анализа более чем 23 000 сайтов из базы данных PhosphoSitePlus. Лучшая модель была получена при длине пептида 35 аминокислотных остатков и использовании 9 уровня MNA-дескрипторов. При пятикратной кросс-валидации показатели чувствительности, специфичности и ROC-AUC разработанной модели составили 0.71, 0.74 и 0.82. Модель позволила выявить 1 136 ранее неизвестных потенциальных сайтов в 418 белках референсного протеома человека при пороге разделения классов, выраженном в виде разности вероятностей принадлежности сайта к положительному (Pa) и отрицательному (Pi) классам, (Pa – Pi) ≥ 0.7. Полученные данные могут служить основой для дальнейших протеомных исследований, направленных на идентификацию и функциональную аннотацию новых сайтов N-ацетилирования лизина в белках человека.
Индексирование
Scopus
Crossref
Высшая аттестационная комиссия
При Министерстве образования и науки Российской Федерации