Optimización de la Traducción Automática Estadística Guiada por el Esfuerzo (EFFORTUNE)
Proyecto financiado por el Ministerio de Economía y Competitividad (código TIN2015-69632-R; finalizado).
Período de actividad: 01.01.2016–31.12.2018 (prorrogado hasta 31.12.2019).
Breve resumen
Tras el entrenamiento sobre corpus representativos, los sistemas de traducción automática estadística se suelen optimizar para que produzcan traducciones próximas a una serie de traducciones de referencia que forman un corpus de desarrollo. Para esto se usan medidas automáticas de evaluación genéricas basadas en precisión o en errores tales como BLEU y TER. Sin embargo, la correlación esperada de estas medidas con el ahorro real en el esfuerzo de corrección de la traducción (“posteditabilidad”) que se espera al usar estos sistemas ha resultado ser muy limitada. Como resultado, el campo de la traducción automática puede no estar produciendo los sistemas que tan perentoriamente se necesitan en un mundo multilingüe. Se hace por tanto necesario el empleo de medidas de evaluación más avanzadas que se puedan ajustar para medir el esfuerzo de post-edición en tareas concretas de traducción.
Cuando las lenguas implicadas en la traducción son sintácticamente diferentes, los sistemas jerárquicos de traducción automática estadística (un subtipo de sistemas de traducción automática estadística) pueden beneficiarse de una nueva formulación basada en los conocimientos existentes en el campo de la inferencia gramatical de lenguajes de árboles, que a su vez esté lista para ser puesta a punto usando medidas más avanzadas del esfuerzo de post-edición.
El proyecto EFFORTUNE se centrará en la investigación y la innovación en las siguientes áreas:
- el desarrollo de un marco de calidad unificado, sensible a tareas y orientado a negocio, formado por
- medidas automáticas de evaluación innovadoras que permitan optimizar los sistemas de traducción automática estadística de manera que el esfuerzo real de post-edición necesario para transformar su salida en texto adecuado para un propósito específico sea mínimo;
- funciones de estimación de calidad mejoradas que predigan, con la mayor precisión posible, la cantidad de esfuerzo que realmente se necesita para convertir el resultado de la traducción automática en texto adecuado: esto hará posible presupuestar un encargo de traducción, o seleccionar entre las diferentes tecnologías de traducción disponibles.
- una nueva formulación de la traducción automática estadística jerárquica, inspirada en la inferencia gramatical clásica, en la que una gramática independiente del contexto síncrona probabilística se infiere a partir de textos paralelos alineados palabra a palabra.
Como resultado, los sistemas de traducción automática producidos por EFFORTUNE serán capaces de reaccionar a medidas reales de esfuerzo de post-edición y usarán nuevas formas de establecer representaciones jerárquicas de la equivalencia de traducción. Los desarrolladores de sistemas de traducción automática y directores de proyectos podrán implementar sistemas de traducción automática que ofrezcan la calidad más alta posible para cada aplicación, lo que minimizará así la necesidad de intervención manual y facilitará así la portabilidad entre pares de idiomas y tareas.
Las innovaciones de EFFORTUNE se implementarán e integrarán en las plataformas de traducción automática libre/de código abierto existentes con el fin de maximizar su impacto y adopción, y serán evaluadas competitivamente, tanto internamente como en competiciones públicas de traducción automática, centrándose en aquellos pares de idiomas y tareas donde la puesta a punto y una transferencia sintáctica adecuada tengan el mayor impacto esperado.
Resumen de resultados
Los sistemas de traducción automática (TA) se entrenan y optimizan para que produzcan traducciones próximas a una serie de traducciones de referencia; con ello se espera reducir el esfuerzo de corrección (postedición) necesario para producir textos publicables. Por otro lado, también puede ser necesario conocer de antemano el esfuerzo necesario (estimación de la calidad) en ausencia de traducciones de referencia; por ejemplo, para presupuestar un trabajo de postedición.
Sin embargo, por un lado, las medidas automáticas de evaluación genéricas usadas, basadas en precisión o en errores tales como BLEU y TER, no se correlacionan suficientemente con el ahorro en la postedición. Así, podría ser que los sistemas actuales no estuviesen produciendo las mejores traducciones posibles. En EFFORTUNE hemos estudiado sistemáticamente —usando datos reales existentes de competiciones científicas (WMT13, WMT14) y los elaborados y liberados durante el proyecto (más de 150 horas de postedición de 5 profesionales sobre la salida de 41 sistemas de TA)— varios tipos de medidas de evaluación ajustables de cálculo sencillo que usan eficientemente la información presente en el texto original, la TA y la de referencia. Por desgracia, los resultados confirman que es difícil mejorar substancialmente las medidas clásicas BLEU y TER, en parte por la gran variabilidad observada entre traductores. Por otro lado, en ausencia de referencias, los estimadores de calidad ajustables análogos a esas medidas, los cuales, como las medidas, obtienen resultados mediocres cuando predicen el tiempo de cada oración, permiten sin embargo presupuestar el tiempo total de trabajos más largos con un 10% de error.
EFFORTUNE también se proponía reformular la TA estadística basándose en técnicas de inferencia gramatical clásica de gramáticas de árboles, para poder trabaja con pares de lenguas con estructuras sintácticas muy diferentes. La técnica desarrollada mostraba resultados prometedores cuando se la entrenaba con pocos datos bilingües pero el coste computacional era prohibitivo. En la actualidad, los sistemas de TA estadística están siendo substituidos por sistemas de TA neural que, en esencia, no se ven afectados por la divergencia sintáctica, lo que limita aún más la utilidad de los resultados obtenidos.
Aunque no estaban entre los objetivos iniciales, EFFORTUNE ha producido también:
- Un nuevo método de evaluación de la TA cuando se usa tal como está para la comprensión (asimilación) de textos en otros idiomas, equivalente pero más barato que los típicos cuestionarios de comprensión lectora;
- un método sencillo que indica qué palabras se deben modificar o insertar en la salida de un sistema de TA, usando otro sistema de TA;
- métodos para la reparación, usando TA, de concordancias parciales provenientes de una memoria de traducción en un entorno de traducción asistida, y
- un método que va sugiriendo automáticamente, usando cualquier sistema de traducción automática, continuaciones viables para las siguientes palabras a escribir según el traductor humano va escribiendo la traducción
- Equipo investigador
- Mikel L. Forcada (Investigador principal)
- Rafael C. Carrasco
- Juan Antonio Pérez Ortiz
- Antonio Miguel Corbi Bellot
- Felipe Sánchez Martínez
Equipo de trabajo
- Miquel Esplà-Gomis
- Lucia Specia (University of Sheffield + Imperial College London)
- Carol Scarton (University of Sheffield)
- John E. Ortega
- Kenneth Jordan Núñez (Universidad San Jorge + Universitat Pompeu Fabra)
- Daniel Torregrosa Rivero
- Francisco de Borja Valero