Recursos de EfforTune

Corpus de tiempos de postedición

EfforTune, partiendo de un corpus ya existente como parte del proyecto europeo EXPERT y con la colaboración de la Dra. Carolina Scarton de la Universidad de Sheffield (Reino Unido), ha producido y publicado un corpus que recoge el trabajo de cinco posteditores profesionales sobre 1047 oraciones que suman unas 27.000 palabras. Estas oraciones han sido traducidas con 41 sistemas de traducción automática diferentes. En el enlace indicado se dan detalles del formato del corpus.

Cada oración original en inglés viene acompañada de su versión traducida automáticamente (con indicación del sistema y del corpus WMT del que proviene), la versión posteditada por cada uno de los cinco profesionales, una traducción de referencia independiente e información detallada sobre el proceso de postedición (tiempo, número de operaciones) y medidas automáticas (BLEU, TER, Meteor) de la calidad de la traducción automática calculados tanto con respecto a la traducción de referencia como con respecto a la traducción posteditada.

Este corpus se liberó con ocasion de la publicación

  • Scarton, C., Forcada, M.L., Esplà-Gomis, M., Specia, L. (2019) Estimating post-editing effort: a study on human judgements, task-based and reference-based metrics of MT quality. In Proceedings of the 16th International Workshop on Spoken Language Translation IWSLT 2019.
    [https://zenodo.org/record/3525003]

Se agradece el apoyo del proyecto EXPERT y de la Universidad de Alicante.