Автор: Шано

* * *

Оригинал взят у в Recorded Future

А смотрели ли вы, многоуважаемые френды, замечательный кинофильм "Три дня "Кондора" с замечательным Робертом Редфордом в главной роли?

 

Для не смотревших [MORE=читать дальше]- фабула: в небольшой конторке за безымянной дверью в центре Нью-Йорка группа сотрудников одной трехбуквенной организации анализирует прессу, то бишь газеты (поскольку Интернет в те далекие семидесятые уже был, но еще не являлся прессой); цель анализа - поиск закономерностей, связей, причин, следствий и т.п.; в процессе чтения открытых источников и сопоставления прочитанного (на чем, кстати, погорел Никитин) аналитики обнаруживают некую причинно-следственную связь, которую им по сроку службы статусу обнаруживать не предполагалось, после чего трехбуквенная организация отправляет по вышеуказанному адресу бригаду "чистильщиков", и они зачищают всех, кроме героя Редфорда, удачно заранее вышедшего через черный ход за пончиками; все это происходит за первые десять минут, а дальше Редфорд скрывается от "чистильщиков", попутно пытаясь связаться то с начальством из трехбуквенной организации, то с журналистами. А "Кондор" - это кодовая кличка главного героя.[/MORE]

 

С точки зрения дальнейшего содержания этого поста представляют интерес первые пять минут фильма: от титров до выхода героя Редфорда за пончиками через задний ход.

 

Сегодня я с коллегами побывал за такой безымянной дверью, правда, не в центре Нью-Йорка, а в центре Кембриджа. Контора, находящаяся за безымянной дверью на шестом этаже невзрачного здания на Гарвардской площади, действительно сотрудничает как минимум с одной трехбуквенной организацией (и с одной шестибуквенной, которую я не побоюсь назвать, - с Гуглом), но, в отличие от прототипа из "Трех дней", имеет и собственное имя: Recorded Future ("Записанное будущее").

 

В остальном функции Recorded Future поразительно напоминают функции ее прототипа. Конечно, сотрудники RF не анализируют прессу вручную: на то есть многоумные компьютеры. Да и анализируемая пресса уже далеко не та: источниками информации служат несколько сот веб-сайтов газет, журналов и органов власти всех уровней, блоги, Твиттер и много что еще - в США и за рубежом, на английском, а также французском, немецком, русском, китайском, арабском, фарси и других языках. Вся эта информация закачивается на сервера RF практически в реальном времени и обрабатывается.

 

Обработка заключается в идентификации событий. С точки зрения RF, событием является нечто, происшедшее или предстоящее в определенном месте в определенное время (возможно, с определенными людьми). Программы, написанные программистами RF, работают с текстами на исходных языках. Они извлекают из них имена и даты. Даты, естественно, сначала извлекаются в системе летосчисления оригинала (иранские - по иранскому календарю, китайские - по китайскому и т.п.) Зачастую даты даны относительно текущего контекста: например, "в пятницу" обычно значит "в ближайшую пятницу", но если в тексте сначала упоминается событие, которое произойдет "в четверг 28 марта", то слово "пятница" в том же тексте, скорее всего, относится к 29 марта.

 

[MORE=читать дальше]Имена разделяются на географические названия (с ними проблем почти никогда не возникает, нужно только помнить, что "Питер" - это "Санкт-Петербург", а "Филли" - "Филадельфия", и т.п.), названия фирм (их идентифицировать сложнее)  и имена-фамилии-клички-псевдонимы людей. Больше всего проблем возникает с людьми (кто бы сомневался). Во-первых, ленивые арабы, например, до сих пор предпочитают не писать гласные, поэтому произношение имен зачастую совершенно невозможно угадать. Еще сложнее понять, относятся ли несколько имен к одному и тому же человеку или к разным, особенно если они даны на разных языках. "Команданте" - это еще Ортега или уже Фидель? "Клинтон" - это еще Билл или уже Хилари? "Абу Мазен" - это Махмуд Аббас или нет? А Слава КПСС - это один человек или двое? Наконец, если в одной заметке говорится, что Джон Смит выиграл "Форд" в лотерею, а в другой - что Джон Смит проиграл тысячу долларов в покер, следует ли радоваться по поводу Джона Смита или, наоборот, горевать? Алгоритмы RF достаточно качественно идентифицируют личности с использованием контекста, но вероятность ошибки все-таки еще не равна нулю.

 

Разобравшись с датами, местами и участниками, программное обеспечение RF приступает к глаголам, прилагательным и наречиям. По ним восстанавливается суть происходившего или происходящего (что, собственно, имело или будет иметь место?), а также эмоциональная окраска события с точки зрения автора текста. Описанные таким образом события переводятся на английский язык, помечаются с использованием иерархической таксономии (например, "Путешествия/Международные путешествия/Официальные международные путешествия" или "Финансы/Банки/Поглощения") и помещаются в базу данных. Эта база данных - продукт, которым торгует Recorded Future.

 

Потенциальные покупатели оформляют на сайте RF подписки типа "прогнозы по беспорядкам в Индии" или "международные поездки президента США". Когда RF детектирует событие запрошенного типа, она передает его по каналу типа RSS заказчику, а что заказчик делает с ним дальше - это уже его забота.

 

Подписки, естественно, далеко не бесплатные - кушать хочется всем сотрудникам RF, включая ее президента. К счастью, президент компании совсем недавно ушел с исследовательской работы, и любопытство в нем еще не окончательно подавлено жаждой наживы. Он прекрасно понимает, как много интересного можно сделать с хранящимися в базе данных RF фактами, как ограничены его людские ресурсы и как стекленеют глаза у спонсоров, когда им предлагают скинуться на неприбыльные проекты. Поэтому президент позвонил одной из наших университетских коллег и предложил ей доступ к любым событиям в базе данных RF в любом разумном объеме на совершенно безвозмездной основе - лишь бы она использовала эти данные для интересных и по возможности бессмысленных научных исследований. Коллега, будучи по профессии не программистом, а социологом, немедленно связалась с нами. В результате "сегодня я с коллегами побывал за такой безымянной дверью, правда, не в центре Нью-Йорка, а в центре Кембриджа..."

 

О том, что именно мы планируем делать с фактами, я пока распространяться не буду - пока мы не получим первые результаты. Но что бы мы ни планировали, я надеюсь, что аналогия с "Тремя днями "Кондора" закончится на пятой минуте фильма.

[/MORE]

Комментарии


Лучшее   Правила сайта   Вход   Регистрация   Восстановление пароля

Материалы сайта предназначены для лиц старше 16 лет (16+)