Conférence #133 - Développer des paires de langues pour la traduction automatique avec apertium

Développement logiciel 20 mn fr_FR Geek Confirmé

Introduction de la conférence

Apertium est un logiciel libre sous licence GPL de traduction automatique démarré en 2004-2005 en Espagne. Le système est composé d’un moteur de traduction comprenant plusieurs outils écrits en C++ et portés en Java, et de fichiers de données au format XML pour chaque paire de langues. Ses développeurs sont souvent du milieu universitaire, étudiants et chercheurs d'un peu tous les pays du monde. La traduction directe de quelques 220 paires de langues a été entreprise à des degrés divers. 38 paires ont été validées (en mars 2014).

À propos du conférencier

Biographie

Bernard Chardonneau, ancien ingénieur informaticien, actuellement professeur de l'enseignement technique (STI2D-SIN). Créateur de deux logiciels libres : http://libremail.tuxfamily.org/ et http://cyloop.tuxfamily.org/ il a choisi d'utiliser des traducteurs automatiques pour les diffuser en plusieurs langues.
Dans le projet Apertium, c'est le principal rédacteur francophone sur le wiki dont il a traduit une bonne partie (environ 130) des pages anglaises. Il a également écrit deux "déformateurs" dont celui pour traduire des pages de man, complété des dictionnaires de paires de langues existantes et ajoute le sens de traduction espéranto -> français à la paire développée initialement pour traduire seulement dans l'autre sens.
C'est sa 5ème participation aux RMLL et il habite Montpellier depuis septembre 2013.

Description de la conférence

La présentation portera sur les développement des paires de langues. Quelque soit la langue source et la langue cible concernée, la traduction avec Apertium se déroule en plusieurs étapes : déformatage, analyse, désambiguïsation, transfert (en une ou plusieurs étapes), génération, post-génération, reformatage. Les logiciels utilisés sont les mêmes pour toutes les paires de langues. A chaque étape de la traduction, un logiciel utilise, transforme, et envoie en sortie les données qu'il a reçu en entrée du logiciel de l'étape précédente. Pour la plupart des étapes de traduction, le logiciel concerné utilise un ou plusieurs fichiers XML compilé spécifique à la langue ou à la paire de langues.
La présentation décrira les différentes étapes d'une traduction et détaillera la structure et les possibilités des principaux fichiers XML à générer (dictionnaires et règles de transferts) pour développer (ou améliorer) une paire de langues.

Programme

  • lundi 7/7 à 15:20 | 31 SC001 - 43.632778;3.862760

Documents liés

Liens


amarok apache archlinux arduino bitcoin blender creativecommons cernohl debian chamilo drupal elphel eZ Publish fedoraproject firefox gentoo gimp gnome gnu freebsd freeguppy gnuhealth haiku imagemagick inkscape jabber jenkins joomla kde knoppix lea-linux libreoffice linux mageia mandriva moodle mozilla openarena openbsd Open Street Map opensuse perl php pidgin plone postgresql python ruby rudder scribus spip thunderbird tomcat tryton typo3 ubuntu vlc wikipedia wordpress xfce xonotic