Требования к предоставлению материалов источников (Документов) в "Интерфакс"
Основной технологией обработки информационных источников в Интерфаксе является автоматический режим, поэтому формат поставки материалов должен быть предварительно полностью согласован со специалистами отдела приема и обработки информации "Интерфакса".
ФОРМАТ
| Расширение |
Описание формата |
| HTML, htm |
Готовые HTML Документы |
| Txt |
Текстовые Документы без разметки. Исходные тексты изданий. |
| rss |
yandex |
В процессе работы формат поставки может быть изменен, но исключительно по согласованию с специалистами "Интерфакса". Не допускается без предупреждения менять тип предоставляемых файлов - например, заменять HTML на DOC, TXT на PDF и т.п.
Документы могут передаваться в "Интерфакс" единым файлом, содержащим весь выпуск издания, либо отдельными файлами, упакованными с применением архиваторов ZIP, RAR либо ARJ.
ПРАВИЛО ОФОРМЛЕНИЯ ИМЕН ФАЙЛОВ
Названия файлов, передаваемых в "Интерфакс", должны содержать следующие выходные данные издания:
- Полное или сокращенное название источника
- Дату выпуска (год, месяц, день)
- Номер выпуска в течении года (если есть)
- Номер выпуска от начала публикации издания или абсолютный номер (если есть)
В именах файлов допускается использование только латинских букв, цифр, знаков "подчеркивания" и "дефис".
Имена поставляемых файлов должны постоянно соответствовать одной и той же схеме. Не допускается без предварительного согласования изменять разделители. Порядок месяца, дня, год, номера и т.п.
Пример оформления имени файла, полностью содержащего один выпуск издания:
Издание "Вечерний Мурманск"
От 16 ноября 2006 года
Номер с начала года 213
Абсолютный номер 1134
Формат RAR: Имя файла Vech_Murm_2006_11_16_N213_ G1134.rar
Формат Html: Имя файла Vech_Murm_200611_16_N213_ G1134.html
Формат TXT: Имя файла Vech_Murm_200611_16_N213_ G1134.txt
Оформление имен файлов, содержащих сдвоенные номера выпусков:
В случае поставки сдвоенного выпуска номер выпуска в имени файла должен указываться через дефис: Vech_Murm_2006_11_16_N214-215_G1134-1135.html
При этом остальные части имени не должны меняться.
ВНУТРЕННЯЯ СТРУКТУРА
Выпуск - отдельные файлы- документы.
- Каждый документ (файл) - заранее отформатирован, т.е. имеет поля
# НАЗВАНИЕ ИЗДАНИЯ
# НОМЕР ВЫПУСКА
# ДАТА
# СТРАНИЦА
# РУБРИКА
# АВТОР
# ЗАГОЛОВОК
# ТЕКСТ
Пример:
#НАЗВАНИЕ ИЗДАНИЯ: Вечерний Мурманск (Мурманск)
# НОМЕР ВЫПУСКА: 213
# ДАТА: 16.11.2006
# АВТОР: Елена НАГАЕВА
# РУБРИКА:
# ЗАГОЛОВОК: Президент посоветовал профсоюзам не лезть в политику
# ТЕКСТ: В Москве приступил к работе VI съезд Федерации независимых профсоюзов России (ФНПР). На съезд в московском Манеже собрались две тысячи человек…
Обязательными являются поля: Название, Дата и Текст.
Наименования полей могут быть произвольными, однако они должны быть зафиксированы и не изменяться без согласования с технической службой "Интерфакса"
Не рекомендуется использовать данный способ описания полей документа при формировании HTML-файлов.
- В выпуске есть "файл-метка", где описаны поля Название, Дата и Номер выпуска при этом выпуск должен быть упакован в одном архивном файле, а отдельные файлы (Документы) могут не быть отформатированы, т.е. полей не иметь. Допускается использование в документах форматов TXT и HTML.
- Файл-архив в имени содержит дату и номер выпуска издания
- В каждом документе (файле) присутствует однозначно распознаваемые информационные строки, где представлены поля: Заголовок, Название, Дата и Номер выпуска. Допускается использование в документах форматов TXT и HTML. В документе формата HTML данные информационные строки должны выделяться HTML-тегами (<h1>Заголовок<h1>, <h2>Автор<h2> и т.д.).
Весь выпуск в одном файле
В этом случае исходный файл делится при обработке на отдельные документы по одному из возможных алгоритмов:
- по пустой строке ( один Документ от другого отделяется пустой строкой.)
- по строке заглавных букв (каждый документ начинается заголовком, который прописывается заглавными буквами)
- по произвольной фиксированной последовательности символов (один Документ от другого отделяется последовательностью символов - html-тегами, непустой строкой текста)
Поля документов в этом случае либо определяются по имени файла, либо извлекаются из информационной строки (одной или нескольких). Действие информационной строки может распространяться как на весь файл, так и на один документ, в котором она содержится.
Особенности формирования TXT документов
В текстовых документах не допускается использование HTML-тегов, гиперссылок и ссылок на графические файлы.
Особенности формирования HTML-документов
При формировании выпусков в формате HTML с перекрестными ссылками и приложенными графическими файлами необходимо, чтобы все ссылки между файлами внутри выпуска были корректными.
ТРАНСПОРТИРОВКА
Система приема и обработки информации использует следующие технологии получения материалов:
Электронная почта
Материалы, не превышающие по размеру 7 мб в одном письме, могут пересылаться по электронной почте на технологический адрес "Интерфакса" (eventus@dats.interfax.ru). Обратный адрес и тема сообщений оговариваются особо.
При изменении адреса отправителя (поле "From") и темы письма (поле "Subject") обязательно уведомляйте отдел приема и обработки информации "Интерфакса".
В каждом электронном письме тема письма (поле "Subject") должна содержать в латинской транскрипции название Издания, при этом транскрипция для каждого издания не должна меняться.
FTP
- Программные средства "Интерфакса" забирают материалы с FTP-сервера поставщика с заданной частотой.
- Поставщик выкладывает файлы на сервер "Интерфакса" при помощи программы FTP клиента (Total Commander, Intranet Explorer, CuteFTP). Доступ к FTP предоставляется после договоренности с технической службой "Интерфакса"
Другие способы транспортировки
Поставщик может предоставлять информацию на любых съемных носителях, присылая её с курьером.
ЗАКЛЮЧЕНИЕ
В перспективе планируются работы по расширению возможностей системы обработки информации и включению в список обрабатываемых следующих форматов:
| Pdf |
Документы Adobe Acrobat. Электронные копии изданий |
| RSS 2.0 |
Структурированный xml формат публикации новостей. |
| DOC |
Microsoft Word |
| XLS |
Microsoft Excel |