среда, 26 сентября 2007 г.

Пора писать диплом

На днях сходил к своему руководителю и получил у него тему диплома. Получил, записал, а когда начал обдумывать ее более детально, настроение
упало. В общем, тема звучит так: "Составление аннотации к тексту". Сразу вспомнились прокошенные пары по искусственному интеллекту и недоученный data mining... Но задание есть задание и его надо как-то делать.

Первым делом выясним что такое "аннотация".
Аннотация (от лат. annotatio - замечание), краткая характеристика книги, статьи или рукописи, их идейно-политической направленности, содержания, назначения, ценности и др. Аннотация может быть описательной или рекомендательной, общей
или специализированной. Аннотированные библиографические указатели помогают читателю ориентироваться в выборе произведений печати.

Любую сложную задачу обычно делят на несколько более легких подзадач. Итак, попробую проанализировать свою тему:

1)) установить цель работы и сферу ее применения. Тут в голову сразу приходят электронные библиотеки и книжные магазины. Действительно, подобный сервис мог бы сослужить хорошую службу составителям таких "книгохранилищ". Однако, для большинства книг аннотации составляют их авторы и никакая программа не сможет справится с этой задачей лучше автора.
Стоит также обратить внимание на такую быстроразвивающуюся отрасль, как блоги. Действительно, количество блогов растет с каждым днем и нужны какие-то инструменты для поиска блогов. Проиндексировав блоги и составив для каждого из них краткую аннотацию, мы получим довольно мощный поисковый инструмент.
Ну и наконец аннотация содержимого различных сайтов. Подобный сервис может заинтересовать некоторые поисковые системы. Ведь каждая поисковая система идет на всяческие ухищрения для привлечения пользователей, пытаясь отхватить часть аудитории таких гигантов как google, yahoo, msn, yandex. Я планирую провести в ближайшее время обзор малоизвестных поисковиков, используемые ими методы поиска, предлагаемые сервисы, т.к. это может помочь в работе. О результатах обязательно доложу тут. Пока можно сказать, что yahoo предоставляет сервис поиска, который анализируя исходный текст, находит в нем ключевые слова и производит поиск по ключевым словам http://yq.search.yahoo.com/publisher/embed.html

2) Для генерации связного текста (аннотации) сервис должен "понимать" смысл текста и иметь некоторые знания о лингвистике. Для этого можно определять контекст, как это делают системы контекстной рекламы. Правда, они всего лишь выделяют ключевые слова, а тут надо их связать в осмысленную фразу.

3) В каждом тексте есть, так сказать, лишние конструкции. Ими могут быть слова-паразиты, жаргоны (если текст не специализированный), слова и словосочетания скобках, примечания и т.п. (нужно выяснить что именно "т.п.").

4) Генерировать текст из исходного текста можно, применяя цепи Маркова. Подробнее тут http://webhell.org/book/markov

Это пока основное, что удалось "нарыть" и придумать. Но не зря, же я так долго расписывал свою тему. Надеюсь на Ваши светлые идеи!

В конце хотелось бы узнать, какая у кого была (есть) тема дипломной или курсовой работы? Расскажите пожалуйста...

3 комментария:

Slava комментирует...

Интересная тема. Меня раньше интересовала похожая тематика (курсе на первом - втором). Я тогда хотел написать более-менее полноценную прогу - искусственного собеседника. Естественно ничего не вышло. А было б круто так, приходишь после работы домой, включаешь комп, а там симпатичная девушка, с кот. можно поболтать о чём-нидь...
Если б ни огромная сложность данного проекта (написать умную девушку сложно, а глупую - не интересно :), думаю могла бы быть не плохая шароварная программа.

Вообще такие программы есть (например, http://nai.org.ru/, посмотри - может что полезное найдёшь), но им ещё очень далеко до полноценных собеседников.

seth комментирует...

Емм ну ріспект :) чогось порадити не можу але буду слідкувати :))

Stepsus комментирует...

Вот попалась статья про то как следует оформлять аннотации к книгам. Кника это конечно не сайт и не блог, но все она такой же набор слов, а потому некоторые рекомендации из статьи можно взять на заметку. Итак аннотация НЕ ДОЛЖНА СОДЕРЖАТЬ:
- выдержку из текста, обширную цитату из данной книги;
- специальные термины и узкую научную терминологию.

Аннотации на литературно-художественные произведения включает следующие сведения:
- сведения об авторе;
- жанр произведения;
- основная тема и проблема произведения, место и время действия описываемых событий;
- читательский адрес (для изданий для детей).

и некоторые другие рекомендации.
Мда, опять анриал полнейший...