Несколько проектов semantic web
| Yury Katkov | |
| Катков Юрий | |
| Роль участника: | |
|---|---|
| Основной раздел: | |
| Круг интересов: |
Semantic Web |
| Гражданство: | |
| Сайт: | |
Введение
В последние годы всё больше обсуждается перспектива построения semantic web. Нового поколения всмирной паутины основанного на свободном обмене не только информацией, но и содержищимся в ней знанием. В этом направлении на протяжении нескольких лет предпринимается ряд шагов как гигантами рынка ИТ так и небольшими исследовательскими, и даже чисто практическими группами. Появляются и первые образцы промышленного применения новой идеологии, её технического воплощения. Данный материал является в первую очередь обзором уже реализованных сценариев использования, позволяющих простому пользователю ощутить преимущества дополнения web семантикой. Целями его создания являются:
Получение картины тех изменений во взаимодействии пользователя с Сетью, которые вызываются внедрением новых подходов к построению сети и оответствующих технологий. Некоторая систематизация сценариев использования этих подходов с целью сравнения её результатов с уже имеющимися классами web-приложений.
Предпосылки возникновения. Цели создания.
Прежде чем рассматривать конкретные приложения стоит обратиться к самой концепции semantic web. В сети Интернет на данный момент накоплены огромные массивы данных. Данные эти однако структурированны весьма разнообразно, а иногда и вообще никак. Смысловую нагрузку некоторого документа, его места в общей системе обычно весьма трудно понять даже человеку не говоря уже об автоматических системах обработки информации, таких как поисковые сервисы. Концепция semantic web предполагает изменение этой ситуации посредство введения семантического аннотирования контента, распространения сервисов, ориентированных на выдачу самих данных и знаний, а не какого-то конкретного их представления, введения унифицированной системы индентификации объектов (ресурсов) в Сети. Ключевым результатом всего этого должна стать повсеместная переориентация знаний, доступных в Интернет на машинную, а не человеческую интерпретацию. Консорциумом W3C принят ряд стандартов, регламентирующих перечисленные выше и некоторые другие аспекты semantic web. Для лучшего понимания концепции стоит уделить особое внимание нескольким из них. Во-первых это язык описания ресурсов RDF. Этот язык основывается на проверенной модели представления знаний объект - субъект - предикат. При этом все элементы таких триплетов должны являться уникальными идентификаторами ресурсов (URI согласно стандарнтам W3C). Универсальных характер объектов, выступающих как элементы логических выражений в этом языке позволяет добиться высокого уровня повторного использования данных и их переносимости. Данный язык позволяет унифицированно сообщать широкому кругу пользователей практически любые сведения об интересующем их объекте. На основе RDF строятся более высокоуровневые языки (RDF schema, OWL) позволяющие строить форматы для описания определённых типов объектов и полноценные онтологии соответственно. Кроме того разработан язык запросов к RDF-хранилищам SPARQL, позволяющий осуществлять выборки из массивов метаданных. Таким образом уже сейчас существует формальная основа для построения полностью распределённого, но единого хранилища данных на основе сети Интернет. Также поверх описанных стандартов разработан набор соглашений о именовании ресурсов и способах выдачи метаинформации о них для облегчения построения такого хранилища. Далее будут даны примеры приложений и сервисов использующих как непосредствено описанные выше стандарты и методы работы с информацией так и просто имеющие схожие принципы в основе своей работы.
Примеры использования
Falcons
Falcons - пример поисковой системы, осуществляющей поиск не только документов но и объектов или концептов (в терминах семантических моделей). Его интерфейс выполнен в классическом стиле Интернет-поисковика: поле для запроса и кнопка "Search". Важным отличием является то, что пользователь может выбрать цель поиска: объект, концепт или документ.
Результат поиска в соответствии с поисковой традицией выдаётся в виде списка результатов с заголовком и краткой выдержкой из найденного. Для документов выдержка представляет собой фрагмент текста, а для объектов и концептов - их описание (список отношей в которых они участвуют, несколько свойств). Также на странице результата отображается список концептов, к которым принадлежат найденные объекты, при выборе одного из них производится фильтрация найденного по принадлежности к данному концепту. При выборе одного из найденных элементов пользователь направляется на документ, либо на страницу с описанием найденного объекта, построенную самим Falcons на основании найденных метеданных (на ней показываются свойства, связи объекта и т.п.). Со страницы с описанием объекта также можно перейти к одному из браузеров semantic web: Disco или Marbles.Для разработчика преложений Falcons предоставляет API с функциями, повторяющими возможности поиска. Также есть возможность добавлять свои источники данных. Для этого достаточно в соответствующей форме ввести URL RDF или OWL документа. Пока что проект располагает небольшой поисковой базой и форма представления результата не очень понятна для простого пользователя. Однако он является примером реализации функций, критических для будующих семантических поисковых сервисов:
Синтез информационных сводок о предмете на основе формальных описаний. Возможность фильтрации результатов поиска по различным предметным областям (отношениям с другими понятиями и объектами). Возможность перехода к внешним браузерам данных.
Marbles
Данное приложение является браузером семантического наполнения Интернет. Надо признать, что он является скорее инструментом специалиста а не простого пользователя. Для своей работы он требует указания ручного ввода идентификатора исследуемого ресурса и выбора способа представления. Для результата Marbles предлагает три варианта отображения:
Подробное. Полный список отношений в которых участвует данный ресурс. Приводятся ссылки для просмотра в Marbles типа отношения и связанного объекта. Сводка. Несколько наиболее важных характеристик, например имя, текстовое описание, домашняя страница. Фотографии. Автоматически найденные изображения предмета.
Интересной особенностью является то, что после результатов приводится список источников с их значками-метками. Этими значками помечаются результаты, полученные из данного источника. Особенно важен в этом проекте подход к способу представления результатов. В нём используется так называемый словарь представления RDF-документов Fresnel. Этот словарь образует язык, позволяющий описать способ отображения пользователю данных, распределённых в Сети. Он создан рабочей группой консорциума W3C для унификации способов представления метаданных и возможности отделения описания этого представления от сервиса, выполняющего сбор и, возможно, обработку данных. В целом подводя итог обзору этого приложения можно отметить, что несмотря на общую недружественность пользователю, он несёт в себе следующие практически интересные идеи:
Использование переносимого формата описания представления ресурсов. Дифференциация способа представления данных, предоставление пользователю выбора. Визуальная ассоциация результатов запроса с источником из которого они получены.
Operator
Operator - плагин для браузера Firefox, предназначенный для обработки различных микроформатов. Функции предельно просты: обнаружение микроформатов на странице, просматриваемой пользователем, и возможность перенаправить данные из них в один из популярных сервисов. Сценарий работы прост: если плагину удаётся обнаружить на странице данные в знакомом микроформате, он информирует об этом пользователя(предусмотренно несколько путей для этого) и тот может выбрать куда извлечённую информацию перенаправить.
Rich snippets
Rich snippets - способ дополнения результатов поиска, используемый Google. Это небольшая вставка рядом с результатом, содержащая некоторую дополнительную информацию о найденном ресурсе. Например отзывы о статье или персональную информацию человека. Однако основной интерес представляет на snippet сам по себе, а способ его формирования. Дело в том, что данные для него могут браться непосредственно с самого ресурса. Для этого веб-мастеру достаточно внедрить в тело ресурса дополнительную разметку, содержащую необходимую информацию. Поддерживается два варианта разметки: на основе распространённых микроформатов и на основе открытого RDF-словаря, также разработанного Google. Таким образом устанавливается семантическая связь между ресурсом и его внешним представлением (результатом поиска).
Bueda
Bueda - веб-сервис (сейчас находится в стадии бета-тестирования), ориентированный на анализ массивов пользовательских меток. На выходе он предлагает ряд логических заключений о помеченном контенте, а также "нормализованный" набор меток. Нормализованные метки - это наиболее распространённые имена понятий, которые предположительно имели в виду пользователи под этими метками. Основное применение такого сервиса авторы видят в улучшении структурированности генерируемого пользователями контента. Проблема очевидна: пользователи использует каждый собственную систему меток. Они во многом пересекаются, но крайне редко совпадают, кроме того часто возникают проблемы с вариацией написания одних и тех же меток. В то время как для поддержания структуры сайта, улучшения поиска и контекстной рекламы. Из основных результатов анализа, выполняемого сервисом, можно выделить:
Информацию о понятиях, стоящих за метками. Это идентификатор соответствующего RDF-ресурса и список классов понятий к которому его можно отнести. Предположения о принадлежности контента к какой-то категории с оценкой вероятности. Рекомендованные дополнительные метки.
Таким образом сервис ориентирован на веб-разработчиков, усилиями которых результаты его работы представляются уже простым пользователям в виде улучшенных классификации и поиска контента. К его недостатка можно отнести только слабое использование стандартов semantic web: используется собственный протокол взаимодействия, нет поддержки приёма информации в какой-то структурированной форме(фактически входные данные сервиса - всегда список строк). Однако решаемые им задачи и подход к их решению несомненно соответствуют концепции нового веба.
True Knowledge
True Knowledge - являет системой поиска ответов на конкретные вопросы. Сервис основывается на решении двух вопросов: получение наборов формальных фактов из Интернет и преобразование запросов на естественном языке в запросы к имеющемуся набору фактов. В качестве источников фактов выступают различные семантически аннотированные ресурсы (например Википедия или Freebase). Факты из них регулярно переносятся во внутреннее хранилище и становятся доступны для поиска. Для каждого ответа приводится факт на основании которого он был выведен и способ которым он был выведен. О факте также можно получить подробную информацию, например откуда он был получен. Важной частью концепции этого ресурса является привлечение пользователей к наполнению базы знаний. Это достигается несколькими путями. Во-первых на главной странице портала есть несколько ссылок, позволяющих пользователям добавлять факты о некоторых объектах(людях, компаниях и т.д.). Во-вторых вместе с каждым ответом выдаётся вопрос согласен-ли пользователь с ним. Если пользователь не согласен, то ему предлагается указать с чем именно он не согласен и привести ссылку на подтверждающий документ. Также есть возможность вручную отредактировать ошибочный факт, введённый другим пользователем. Третьим способом является ввод правильного ответа на естественном языке. Надо отметить, что данный сервис является одним из наиболее актуальных и полезных в данном обзоре. В нём прослеживается не академическая разработка, а близкий к коммерческому использованию проект. На его примере мы видим как масса распределённой в Сети информации может быть преобразована, интерпретирована и эффективно использована. Данный ресурс также отличается тем, что он не просто берёт информацию из Интернет, но и всячески привлекает своих пользователей к её оценке и, при необходимости, корректировки.
Freebase
Данный ресурс позиционирует себя как "коллекция фактов". Основным его интерфейсом является всё та же строка поиска, которая позволяет выполнить запрос на поиск "топика". Топик в терминологии Freebase - это некоторый предмет или понятие, о котором известен какой-то набор фактов. Если находится несколько подходящих топиков, то пользователю приводится их список с аннотацией. Сам топик представляется как список фактов, сгруппированных по типу. Например для человека это будут биографичекие факты (рождение, смерть и т.п.), написанные им книги, научные интересы и т.д. Естественно факты часто могут связывать текущий топик с другими и они также доступны для просмотра. Факт может подразумевать связь не с одним, а со многими другими топиками, такие факты называются коллекциями. Кроме поиска имеется также поддержка обзоров некоторой темы. Например для темы "кино" можно просмотреть известные их коллекции, новые фильмы, известных актёров. Также приводится статистика по данной теме, например для фильмов количество известных актёров и режиссёров в базе. Помимо этого, основного, функционала присутствует также возможность редактирования пользователями фактов. В этом режиме можно добавлять и редактировать факты, описание, добавлять новые типы фактов к топику и заполнять их и т.д.. Также есть возможность редактировать и мета-структуру данных: типы и присущие им факты. Большое внимание уделено и доступности накопленных данных для других приложений. Всё, что имеется в freebase может быть запрошено с помощью специального языка запросов. Для разработчиков создана подробная и понятная документация по использованию этого языка и обработке результатов. На самом сайте поддерживается коллекция сторонних приложений, дополняющих сервис различными возможностями анализа данных. Этот сервис вместе с True Knowledge является одним из флагманов технологии, позволяющих посмотреть на её возможности в очень качественном, технологичном исполнении. К сожалению он имеет характерный недостаток: использование собственного языка запросов и представления данных (второй продублирован возможностью экспорта данных в формате RDF).
Sig.ma
Сигма, разработка Digital Enterprise Research Institute, может использоваться для трех целей: 1. Поисковик-броузер по сайтам, содержащим информацию в RDF, RDFa или Microformats. У броузера очень наглядное представление результатов. Довольно впечатляющие результаты дает при запросе информации об известных личностях и организациях. Помимо обычных запросов в стиле Google, понимает специальные параметры, позволяющие получать данные в виде json и rdf. Как виджет с автоматически обновляемой (живой) информацией. Можно создать сигму и повесить её у себя на сайте. Сигма позаботится о том, чтобы вовремя следить за обновлениями. Как семантический API
Yahoo! SearchMonkey
Этот инструмент призван решить сразу две задачи: упростить владельцем сайтов представление себя в результатах поиска и позволить пользователям управлять тем какие дополнительные данные и как будут отображаться в результатах поиска. Достигается это использованием структурированных метаданных к страницам и предоставлением пользователям возможности выбирать дополнительные "приложения" для обработки результатов поиска. Работа сервиса состоит из следующих этапов:
Авторы сайтов добавляют структурированные метаданные (поддерживается большой набор микроформатов и OWL-онотлогий). Поисковый робот Yahoo! индексирует их. Пользователь выбирает каким приложениям разрешить обработку своих результатов поиска. Поиск Yahoo! при определённых условиях (наличии нужного класса метаданных) вызывает приложения, передаёт им найденные данные и отображает в своих результатах возвращённое ими представление результатов.
Очень важно также и то, что сторонние разработчики могут создавать собственные приложения. Это даёт пользователям большой выбор средств для улучшения поиска. Так например уже есть приложения для обработки в результатах запроса вакансий, научных конференций, и компьютерных игр.
Классификация
Приведённые выше примеры, можно логически разбить на несколько функциональных групп в соответствии с типом сервиса, который они предоставляют пользователям. Рассмотрим боле детально каждую из них.
Обзор ресурсов
Сервисы данного типа призваны помочь пользователю в осознании и интерпретации связей между разнородным контентом. Типичным сценарием для таких систем является указание пользователем некоторого понятия, отправной точки и вывод в той или иной форме всего множества связанных с ним ресурсов. Соответственно для одного из элементов этого множества можно повторить операцию и т.д. Можно с уверенностью сказать, что у этого класса нет аналогов внутри предыдущего поколения веб. Сама возможность существования таких приложений порождена предлагаемым semantic web подходом к хранению и представлению информации. В этот класс попадают первые два из рассмотренных приложений: Marbles и Falcons. Оба они достаточно далеки от массового, коммерческого использования и являются прототипами используемых широким кругом пользователей средств. Ближе к практике находится проект Freebase, предоставляющий развитый интерфейс для навигации в своей базе знаний.
Поиск
Сервисы этого типа уже широко распространены и являются лицом Интернет. В контексте интеграции в семантические сервисы видоизменение этой функции выглядит достаточно логичным: результатом поиска являются факты, а не контент. Непосредственно поиском занимается Falcons, также поиском ответов занимается проект True Knoweledge. Своеобразным поисковым сервисом обладает и Freebase. Что характерно, каждый из этих сервисов предлагает свой подход к подаче результатов поиска. Польза от подхода к поиску в сети как к поиску фактов трудно поддаётся оценке. Очевидно, что значительную часть поисковых запросов люди делают именно с целью получения конкретных фактов. Но также очевидно, что есть ряд запросов подразумевающих "развёрнутый ответ". Стоит также обратить внимание и на вторую общую особенность таких сервисов: в результатах поиска они в той или иной форме дают обзор контекста. Например другие факты об объекте, другие объекты с похожими наборами фактов или из той же области.
Коллективное накопление знаний
Системы данного класса принимают на себя роль хранилища знаний, вносимых их пользователями.Чаще всего они также включают в себя черты двух предыдущих классов для помощи пользователям в работе с накопленным массивом знаний или являются их дополнением, выполняющим роль социального фильтра. Достаточно прямым аналогом таких приложений являются весьма популярные сейчас вики. Помимо отличия в форме накопляемых знаний (факты, а не тексты), характерной особенностью нового поколения является способность впитывать знания из внешних источников (кстати наиболее популярными источниками являются как-раз вики) и следовательно предоставлять пользователям не чистый лист, не которые наброски знаний, доступные для пополнения и корректировки. Интеллектуальная обработка данных Сервисы из этого класса помогают своим потребителям интерпретировать размещённые у них данные, делать выводы об их структуре, семантической связи и т.п. для лучшего представления пользователям или другим приложениям. В даннуюгруппу можно отнести такие сервисы как Bueda и RichSnippets. Аналоги для этого класса весьма трудно найти. Вполне возможно, что сейчас наблюдается зарождение нового вида сервисов, которые станут со временем такими же привычными инструментами веб-мастеров какими сейчас являются карты и рекламные блоки.
Выводы
В целом можно сделать вывод о росте доступности информации - инструменты поиска и обзора проще получают доступ к большим объёмам информации, распределённой в Сети интернет. Структурированность данных, позволяет разработчикам концентрироваться на задачах её обработки и представления, а не добычи. Весьма характерно, что многие проекты применяют схожую технику для борьбы с "информационным шумом", неизбежно возникающим при обработке больших массивов информации. Техника эта состоит в социализации знаний, перекрётной проверке большим количеством людей (классический приём, стоящий за успехом открытых энциклопедий на базе вики). Естественно при этом предоставляются все возможности для оценки качества фактов или даже их исправления. Из не очень приятных тенденций можно отметить склонность многих разработчиков отказываться от использование стандартных средств, рекомендованных W3C и строить свои форматы и протоколы для обмена информацией. Хотя нельзя исключить, что многообразие средств коммуникации также как и многообразие информации и сервисов является одной из черт Интернет будущего.