Создание семантического Web-портала

Проект № ИТ / 558 - 2009 от 20 июля 2009 "Создание семантического Web-портала знаний и средств интеллектуального анализа данных для национальной GRID-инфраструктуры"
Выполненный проект посвящен усовершенствованию образовательного сегмента национальной Grid-инфраструктуры для нужд е-науки, созданный на предыдущем этапе выполнения Государственной программы ИКТ согласно проекту Ugrid по договору № ИТ / 506 - 2007 от 22 августа 2007. Речь идет о начале исследований Grid-систем третьего поколения, так называемых семантических Grid, в которых информация и услуги имеют четкое определение, позволяющее компьютерам и людям работать в кооперации. Семантический Грид как расширение современного Грида будет чрезвычайно полезным для е-науки, поскольку его технологии позволят легко, быстро и удобно работать со знанием, а не с информацией, как делается сейчас. Дополнения Семантический Грид могут интегрировать большое множество разнородных источников информации и услуг, которые привлечены и объединены, а также человеческие и вычислительные услуги и услуги передачи информации. 
Результаты работы
1. Разработан инструментарий для семантической разметки документов HTML, в частности, система управления контентом (CMS), которая вобрала в себя все доступные на этот день микроформаты и другие семантические технологии. Публикуя информацию через эту систему, можно автоматически сгенерировать семантически размеченный документ, который после обработки поисковыми системами имеет больше шансов быть проиндексированным и находится на первых страницах поисковой выдачи. 
2.Проанализированы преимущества и сложности выбора технологии веб-сервисов как базовой для реализации концепции грид-сервисов. Исследованы основные противоречия между принципами сервисно-ориентированной архитектуры и реалиями грид-сред, рассмотрены возможные пути их преодоления (реализованные и перспективные). Сформулированы рекомендации для разработчиков грид-сервисов для национальной грид-инфраструктуры по согласованию грид- и веб-сервисов. Указан первичный круг стандартов, рекомендованных к использованию разработчиками для минимизации проблем с совместимостью разработанных решений. 
3. Проанализирована пригодность отдельных стандартов со стека спецификаций веб-сервисов 
(WS-*) и ресурсов веб-сервисов (WSRF) для использования при реализации грид-сервисов. 
При этом учитывались такие аспекты, как: совместимость с существующим инструментарием, 
учет особенностей грид-среды, способность интегрироваться в инфраструктуру безопасности, возможность использования стандартных средств автоматизированного выполнения 
составленных процессов, возможности семантического расширения. 
4.Исследованы элементы Грид-инфраструктуры для проверки тех из них, которые могут быть улучшены при помощи семантических технологий. Это элементы, наиболее зависимые от операций поиска, сравнения (matchmaking) и принятия решений: информационная система, брокеры, средства автоматизации рабочих потоков (workflows). 
5.Предложена методология создания онтологий, основанная на системах представления декларативных знаний. Проанализированы и сравнены существующие языки описания онтологий (в частности, OIL, DAML + OIL, OWL). Приведенные примеры онтологий для наук о ????Земле и г ид-технологии как современную основу компьютерных наук. 
6.Создан программный семантический поисковик как средство просмотра и поиска в семантической базе знаний портала, который состоит из серверной и клиентской части. 
6.1. Серверная часть представлена двумя сервисами: 
• SPARQL-процессор общего назначения 
• обработчик запросов клиентской части. 
SPAQRL-процессор реализует стандартный протокол W3C для удаленных запросов языке SPARQL к набору данных RDF. Он построен на основе сервлета с открытым кодом Joseki. 
Сервис доступа для удаленных запросов состоит из следующих компонентов: 
• сервлет Joseki для реализации протокола 
• SDB - библиотека с фреймворка Jena для работы с семантическими данными, что позволяет использовать реляционную базу данных в качестве хранилища триплетов 
• СУБД MySQL 
Обработчик запросов реализован в виде сервлета, который принимает на вход тип запроса и объект поиска, проводит его валидацию осуществляет SPARQL-запрос к хранилищу и возвращает результаты в формате JSON для отражения их в клиентской части. 
6.2. Клиентская часть представляет собой JSP-страницы со встроенными скриптами на языке JavaScript, использующих библиотеку jQuery с плагинами для отображения динамического обновления содержимого страницы на основе результатов, которые возвращает серверная часть средства. 
6.3.JSP-страница (index.jsp) позволяет осуществлять поиск по ключевому слову по свойствам данных и отображать список ресурсов, которые связаны с этим свойством. Кроме этого, при переходе по ссылкам в возвращенных результатах поиска в табличном виде отображаются все свойства, связанные с данным ресурсом, который имеется на данный момент в семантической базе. 
6.4.Страница advanced.jsp предоставляет конструктор запросов к семантической базе знаний с возможностью описания произвольного количества утверждений, которые должны удовлетворяться результатами поиска, правил фильтрации результатов, их сортировка и ограничения их количества. Каждое утверждение состоит из субъекта, предиката и объекта. 
Результаты запросов отображаются в таблице. Каждая строка таблицы состоит из количества колонок, соответствующих количеству переменных в запросе (переменные обозначены). Средства, получаемые в результате запроса, являются ссылками для просмотра связанных свойств способом, описанным выше. 
7.Подготовлено учебное пособие «Семантический Грид для науки и образования» (проф. Петренко А.И.), поддерживающий новый для вузов курс по грид-технологиям, преподавание которого для магистров начинается с февраля 2011 года в НТУУ« КПИ ». 
Практическое значение полученных результатов:
Разработка и внедрение технологий Семантического Web является ныне магистральным направлением развития веб-технологий. Использование технологий Семантического Web в образовательных порталах позволяет обеспечить высокий уровень персонализации обучения, повысить качество обработки запросов пользователей, эффективнее интегрировать информацию из разнородных источников в пользу научной и образовательной деятельности. Таким образом, разработка семантических порталов должна рассматриваться на этом этапе как приоритетное направление создания учебно-исследовательских информационных сред следующего поколения. 
Актуальность задачи подтверждается увеличением интереса поисковых систем к семантически размеченным страницам, постоянное вступление новых микроформатов и доработка нынешних. Нельзя не учесть, что все крупные сервисы (Facebook, Twitter, YouTube и другие) уже используют многие микроформаты для улучшения поисковой выдачи и создания связей между документами и событиями. Поисковые гиганты (Google, Yahoo, Yandex и другие) ежедневно следят за развитием семантики и сервисов в частности, чтобы в дальнейшем улучшать свои поисковые механизмы. 
Аналитические обобщенные материалы из семантического Веб использованы при разработке программы и материалов новой дисциплины "Веб-дизайн и веб-технологии", которая недавно введена согласно проекту Государственного стандарта на образование в учебный план подготовки бакалавров по направлению "Компьютерные науки". 
Разработана рабочая учебная программа магистерского курса "Грид-технологии для распределенных вычислений и обработки данных" (с.н.с. Свистунов С.Я.), которая содержит раздел «Порталы и мета- планировщики». 
Проведенные исследования возможной архитектуры и свойств семантического Грид дают основание квалифицированно формировать технические задания на соответствующие конкурсные проекты новой Государственной программы внедрения Грид-технологий на 2009-2013 годы, в частности, ее раздела, посвященного "разработке и внедрению методов эффективного использования существующих Грид-ресурсов с помощью интеллектуальной обработки данных (DataMining)." 
Опубликовано 11 статей по тематике семантического Грид и результатов проекта и сделано 10 докладов на международных и республиканских конференциях с опубликованием их тезисов. Изданы учебные материалы «Семантические грид-технологии для науки и образования» как составная часть нового для вузов курса по грид-технологиям, преподавание которого для магистров начинается с февраля 2011 года в НТУУ «КПИ». 
Перечень научных публикаций, докладов на конференциях, семинарах
1. Згуровський М.З., Петренко А.І..Grid – технології для е-науки і освіти.- \\Наукові вісті, НТУУ»КПІ».-№2, 2009.-с.10-17.
2. Zagorodny A., Zgurovsky M., Zinovjev G., Petrenko A., Martynov E. Integrating Ukraine into European Grid Infrastructure.-// Системні дослідження і інформаційні технології.-Київ, №2, 2009.-с.35-49.
3. Петренко А.І. Застосування Грід- технологій в науці і освіті.-Київ: Політехніка, 2009.-145 с
4. Згуровский М.З., Петренко А.І. Е-наука на шляху до семантичного Грід. Частина 1: Об’єднання Web- і Грід- технологій .-//Системні дослідження і інформаційні технології.-Київ, №1, 2010.-с.26-38.
5. Згуровский М.З., Петренко А.І. Е-наука на шляху до семантичного Грід. Частина 2: Семантичний Web- і семантичний Грід.-//Системні дослідження і інформаційні технології.-Київ, №2, 2010.-с.7-25.
6. Згуровський М.З., Петренко А.І.., Кисельов Г.Д. Створення національної Grid – інфраструктури для забезпечення наукових досліджень.-// Інформаційні технології в освіті.- Херсон, випуск 4, 2009. -12-17 с.
7. Петренко А.І. Комп’ютерне моделювання Грід- систем. -//Электроника и связь /Тематический выпуск «Электроника и нанотехнологии». №5, 2010.-с.40-48
8. Петренко А.І. Моделювання Грід- систем і в Грід-системах. -// Збірник наукових праць Інституту проблем моделювання в енергетиці НАНУ: Моделювання і інформаційні технології (спеціальний випуск), том1.-Київ, 2010.- с.11-21.
9. Петренко А.І, . Моделювання Грід- систем. -// 12-а Міжнародна конференція «Системний аналіз та інформаційні технології» (САІТ-10), Київ, 25-29 травня 2010, Київ, Україна : матеріали – К. : УНК "ИПСА" НТУУ "КПИ", 2010. 
10. Петренко А.И.,Хондар В.С. Інструментарій розроблення онтологій –-// 12-а Міжнародна конференція «Системний аналіз та інформаційні технології» (САІТ-10), Київ, 25-29 травня 2010, Київ, Україна : матеріали. – К. : УНК "ИПСА" НТУУ "КПИ", 2010. 
11. Петренко А.І., Оленович Є. Компьютерные облака в Грид технологиях – -// 12-а Міжнародна конференція «Системний аналіз та інформаційні технології» (САІТ-10), Київ, 25-29 травня 2010, Київ, Україна : матеріали. – К. : УНК "ИПСА" НТУУ "КПИ", 2010. 
12. Петренко А.І.,Булах Б.В., Хондар В.Д. Семантичний Грід для науки і освіти.-//Київ: « Політехніка», 2010.-155 с.

Документальные подтверждения результатов:

1. Сайт проекта www.portal.hpcc.org.ua, который является по сути семантическим Веб-поисковиком данных, в частности, о грид-ресурсах. 
2. Сайт дистанционного обучения http://moodle.kpi.ua, на котором размещены учебные материалы дистанционного магистерского курса "Грид - технологии для распределенных вычислений и обработки данных".

Ukrainian (UA)Russian (CIS)English (United Kingdom)