facebook

ИСТОЧНИКИ ИНФОРМАЦИИ

Требования к предоставлению материалов источников (Документов) в "Интерфакс"

Основной технологией обработки информационных источников в Интерфаксе является автоматический режим, поэтому формат поставки материалов должен быть предварительно полностью согласован со специалистами отдела приема и обработки информации "Интерфакса".

ФОРМАТ

Расширение Описание формата
HTML, htm Готовые HTML Документы
Txt Текстовые Документы без разметки. Исходные тексты изданий.
rss yandex

В процессе работы формат поставки может быть изменен, но исключительно по согласованию с специалистами "Интерфакса". Не допускается без предупреждения менять тип предоставляемых файлов - например, заменять HTML на DOC, TXT на PDF и т.п.

Документы могут передаваться в "Интерфакс" единым файлом, содержащим весь выпуск издания, либо отдельными файлами, упакованными с применением архиваторов ZIP, RAR либо ARJ.

ПРАВИЛО ОФОРМЛЕНИЯ ИМЕН ФАЙЛОВ

Названия файлов, передаваемых в "Интерфакс", должны содержать следующие выходные данные издания:

  • Полное или сокращенное название источника
  • Дату выпуска (год, месяц, день)
  • Номер выпуска в течении года (если есть)
  • Номер выпуска от начала публикации издания или абсолютный номер (если есть)

В именах файлов допускается использование только латинских букв, цифр, знаков "подчеркивания" и "дефис".

Имена поставляемых файлов должны постоянно соответствовать одной и той же схеме. Не допускается без предварительного согласования изменять разделители. Порядок месяца, дня, год, номера и т.п.

Пример оформления имени файла, полностью содержащего один выпуск издания:
Издание "Вечерний Мурманск"
От 16 ноября 2006 года
Номер с начала года 213
Абсолютный номер 1134

Формат RAR: Имя файла Vech_Murm_2006_11_16_N213_ G1134.rar
Формат Html: Имя файла Vech_Murm_200611_16_N213_ G1134.html
Формат TXT: Имя файла Vech_Murm_200611_16_N213_ G1134.txt
Оформление имен файлов, содержащих сдвоенные номера выпусков:
В случае поставки сдвоенного выпуска номер выпуска в имени файла должен указываться через дефис: Vech_Murm_2006_11_16_N214-215_G1134-1135.html
При этом остальные части имени не должны меняться.

ВНУТРЕННЯЯ СТРУКТУРА

Выпуск - отдельные файлы- документы.

  1. Каждый документ (файл) - заранее отформатирован, т.е. имеет поля
    # НАЗВАНИЕ ИЗДАНИЯ
    # НОМЕР ВЫПУСКА
    # ДАТА
    # СТРАНИЦА
    # РУБРИКА
    # АВТОР
    # ЗАГОЛОВОК
    # ТЕКСТ
    Пример:
    #НАЗВАНИЕ ИЗДАНИЯ: Вечерний Мурманск (Мурманск)
    # НОМЕР ВЫПУСКА: 213
    # ДАТА: 16.11.2006
    # АВТОР: Елена НАГАЕВА
    # РУБРИКА:
    # ЗАГОЛОВОК: Президент посоветовал профсоюзам не лезть в политику
    # ТЕКСТ: В Москве приступил к работе VI съезд Федерации независимых профсоюзов России (ФНПР). На съезд в московском Манеже собрались две тысячи человек…

    Обязательными являются поля: Название, Дата и Текст.

    Наименования полей могут быть произвольными, однако они должны быть зафиксированы и не изменяться без согласования с технической службой "Интерфакса"

    Не рекомендуется использовать данный способ описания полей документа при формировании HTML-файлов.

  2. В выпуске есть "файл-метка", где описаны поля Название, Дата и Номер выпуска при этом выпуск должен быть упакован в одном архивном файле, а отдельные файлы (Документы) могут не быть отформатированы, т.е. полей не иметь. Допускается использование в документах форматов TXT и HTML.
  3. Файл-архив в имени содержит дату и номер выпуска издания
  4. В каждом документе (файле) присутствует однозначно распознаваемые информационные строки, где представлены поля: Заголовок, Название, Дата и Номер выпуска. Допускается использование в документах форматов TXT и HTML. В документе формата HTML данные информационные строки должны выделяться HTML-тегами (<h1>Заголовок<h1>, <h2>Автор<h2> и т.д.).

Весь выпуск в одном файле

В этом случае исходный файл делится при обработке на отдельные документы по одному из возможных алгоритмов:

  • по пустой строке ( один Документ от другого отделяется пустой строкой.)
  • по строке заглавных букв (каждый документ начинается заголовком, который прописывается заглавными буквами)
  • по произвольной фиксированной последовательности символов (один Документ от другого отделяется последовательностью символов - html-тегами, непустой строкой текста)

Поля документов в этом случае либо определяются по имени файла, либо извлекаются из информационной строки (одной или нескольких). Действие информационной строки может распространяться как на весь файл, так и на один документ, в котором она содержится.

Особенности формирования TXT документов

В текстовых документах не допускается использование HTML-тегов, гиперссылок и ссылок на графические файлы.

Особенности формирования HTML-документов

При формировании выпусков в формате HTML с перекрестными ссылками и приложенными графическими файлами необходимо, чтобы все ссылки между файлами внутри выпуска были корректными.

ТРАНСПОРТИРОВКА

Система приема и обработки информации использует следующие технологии получения материалов:

Электронная почта

Материалы, не превышающие по размеру 7 мб в одном письме, могут пересылаться по электронной почте на технологический адрес "Интерфакса" (eventus@dats.interfax.ru). Обратный адрес и тема сообщений оговариваются особо.

При изменении адреса отправителя (поле "From") и темы письма (поле "Subject") обязательно уведомляйте отдел приема и обработки информации "Интерфакса".

В каждом электронном письме тема письма (поле "Subject") должна содержать в латинской транскрипции название Издания, при этом транскрипция для каждого издания не должна меняться.

FTP

  • Программные средства "Интерфакса" забирают материалы с FTP-сервера поставщика с заданной частотой.
  • Поставщик выкладывает файлы на сервер "Интерфакса" при помощи программы FTP клиента (Total Commander, Intranet Explorer, CuteFTP). Доступ к FTP предоставляется после договоренности с технической службой "Интерфакса"

Другие способы транспортировки

Поставщик может предоставлять информацию на любых съемных носителях, присылая её с курьером.

ЗАКЛЮЧЕНИЕ

В перспективе планируются работы по расширению возможностей системы обработки информации и включению в список обрабатываемых следующих форматов:

Pdf Документы Adobe Acrobat. Электронные копии изданий
RSS 2.0 Структурированный xml формат публикации новостей.
DOC Microsoft Word
XLS Microsoft Excel