Base de datos

Flujo de trabajo proyecto PortADa

La metodologia del proyecto PortADa

El proyecto se nutre de la información que la prensa local de cada ciudad-puerto publicó sobre la llegada de barcos procedentes de diversos destinos.

Para Barcelona (España), Marsella (Francia) y La Habana (Cuba), la mayoría de las fuentes se encontraban digitalizadas en repositorios de hemerografía digital histórica. Las imágenes, que en algunos casos se encontraban en formato .pdf, fueron transformadas a .jpg y renombradas. Para Buenos Aires (Argentina), ante la falta de fondos digitalizados, se fotografió únicamente la información que era de interés para el proyecto.

El nombre de las fotos se normalizó considerando los siguientes metadatos: Fecha de publicación, Nombre del periódico, Edición, Número del diario, Posición, Página, Segmento.

Tras la digitalización, el flujo de trabajo tiene cuatro etapas: CORRECCIÓN, LAYOUT, OCR Y EXTRACCIÓN DE DATOS.

Para elegir los métodos más apropiados en cada fase del trabajo realizamos ejercicios de prueba con diferentes herramientas.

Se han integrado todos los procesos seleccionados en un software denominado PAPICLI,

Para los objetivos de nuestro proyecto las imágenes con las que trabajamos deben ser de alta calidad y lo suficientemente nítidas para que las letras y los números puedan distinguirse con claridad. Se elaboró a partir redes neuronales profundas (ResNet Model) un clasificador automático que diferencia las imágenes críticas, que deberán ser digitalizadas nuevamente, de aquellas que serán útiles para nuestro trabajo.

Entre las imágenes seleccionadas se realizó una nueva clasificación que las separa según los problemas principales que hemos detectado para el trabajo de OCR (Reconocimiento Óptico de Caracteres): Curvatura, Ruido e Inclinación. La separación permite aplicar un tipo de solución específica para cada imagen.

La mayor parte del material digitalizado se presenta como páginas completas; sin embargo, nos interesan las noticias de arribos . Por tal razón, ya con las imágenes corregidas se inicia el trabajo de layout, que apunta a segmentar la imagen del periódico en bloques (secciones, columnas, párrafos). Para este objetivo se han utilizado, alternativamente, el algoritmo YOLO (You Only Look Once) y la Newspaper Segmentation API de Arcanum.

Con las imágenes segmentadas aplicamos el procedimiento de OCR, para lo que utilizamos Document AI de Google. Tras el reconocimiento automático de caracteres unimos los párrafos para reconstruir la noticia de entradas de barcos publicada para cada día y cada periódico.

Con ese material se realiza la extracción de datos para completar nuestra base de datos. Utilizamos expresiones regulares y Open AI para que los datos incluidos en la noticia puedan organizarse según los diversos campos que hemos definido.

La base de datos contiene 47 campos. Sus nombres son : model_version, publication_date, publication_name, publication_edition, news_section, travel_departure_port, travel_arrival_port, travel_departure_date, travel_arrival_date, travel_arrival_moment, travel_duration_value, travel_duration_unit, travel_port_of_call_list, port_of_call_place, port_of_call_arrival_date, port_of_call_departure_date, ship_type, ship_flag, ship_name, ship_tons_capacity, ship_tons_units, master_role, master_name, ship_agent_name, crew_number, broker_name, cargo_list, cargo_merchant_name, cargo_quantity, cargo_unit, cargo_commodity, cargo_port_origin, cargo_port_destination, info_ship_type, info_ship_name, info_master_role, info_master_name, info_meeting_place, info_meeting_date, info_port_departure, cargo_info_departure_date, info_port_destination, info_behind, quarantine, forced_arrival, ship_amount, ship_origin_area.