RSS

My Master’s Thesis

24 Apr

Injected Linguistic Tags Approach to Improve Phrase Based Statistical Machine Translation

Thesis Submitted to Computer Science Department in Partial Fulfillment of the Requirements for Obtaining the Degree of  MASTER of Science in Computer Science.
Please find the abstract of the work in both English and Arabic below:
Abstract

Statistical machine translation (SMT) has proven to give good results between languages with high similarity in morphological and grammatical nature like English and French. However, SMT still needs improvements when used to translate text between languages that have different morphology and syntax structure, especially between poor and rich morphological languages like English and Arabic. In this thesis, Injected Linguistic Tags approach is presented which improves the phrase based statistical machine translation (PBSMT). This approach has been applied to “English to Arabic translation”. The Injected Tags (ITs) approach is language independent and can be used with any language pair. The proposed approach incorporating English-Arabic languages using the state-of-the-art PBSMT system is presented. This approach presents a method to enrich and expand the SMT parallel corpus to allow more capabilities and vocabularies. The proposed approach has been evaluated and a comparison between its results with several online MT services has been presented. It has shown good improvement of the translation quality of at least 13% increase of BLEU score. The experiments reveal that the results achieved by this approach considered significant enhancements over PBSMT. Further more, the experiments show that for the translation system that uses the proposed approach, an increases of the noun/verb gender-number agreement of the translated text are recorded.


Published Work

This thesis has resulted in original work published as follows:

Waleed Oransa, Mohamed Kouta and Mohamed Sakre. “Injected Linguistic Tags to Improve Phrase Based SMT”. In t he 2nd International Conference on Computer and Automation Engineering , ICCAE, Singapore, 2010. [Download from IEEEXplore]

ملخص الرسالة باللغة العربية

لقد أعطت نظم الترجمة المبنية على الترجمة الإحصائية نتائج جيدة بين اللغات التي تمتاز بتقارب في طريقة الصرف والقواعد النحوية مثل اللغة الانجليزية والفرنسية. هذه النظم مازالت تحتاج إلى تحسين عندما يتم استخدامها للترجمة بين اللغات المختلف ، بشكل كبير، في طريقة الصرف و البناء اللغوي ، خاصة بين اللغات الفقيرة بالتصريفات واللغات الغنية بالتصريفات كالانجليزية والعربية. هذه الرسالة تناقش طريقة مقترحة للإثراء اللغوي لنظم الترجمة الإحصائية المعتمدة على المقاطع. هذه الطريقة تم تطبيقها للترجمة من اللغة الانجليزية إلى اللغة العربية لكنها تعتبر طريقة مستقلة عن اللغة فيمكن استخدامها لتحسين الترجمة بين أي لغتين.

هذه الرسالة تعرض نظام ترجمة آلية من اللغة الانجليزية للغة العربية باستخدام أحدث نظم الترجمة الإحصائية المفتوحة المصدر “موسى”. وتضيف هذه الرسالة وسيلة لإثراء نظم الترجمة الإحصائية عن طريق تعزيز قدراتها ومفرداتها بمفردات خارج الجمل المتوازية التي استخدمت في مرحلة تدريبها. تم تقييم الطريقة المقترحة ومقارنة النتائج مع خمس نظم ترجمة آلية متاحة على الانترنت وكانت نتائج الترجمة للعربية أفضل خاصة في قواعد مطابقة الاسم من ناحية التذكير والتأنيث والعدد مع الفعل والصفة.

أظهرت نتائج التجارب على نظام الترجمة الذي يستخدم طريقة الإثراء اللغوي تحسنا في النص المترجم للعربية مقارنة مع النظام الأساسي الذي لم يستخدم هذه الطريقة. كما أعطى “التقييم الآلي لجودة الترجمة” باستخدام مقياس “بلو” ومقياس “إن آي إس تي” ارتفاعا كان حده الأدنى بنسبة 13% مقارنة بالنظام الأساسي. كذلك تم تسجيل تحسن في مطابقة الاسم في التذكير والتأنيث والمفرد والجمع والمثنى والعدد مع بقية مكونات الجملة كالأفعال والصفات عنها في النظام الأساسي.

Advertisements
 
2 Comments

Posted by on 24/04/2010 in Maters

 

2 responses to “My Master’s Thesis

  1. karim.ziaad

    16/10/2010 at 11:10 am

    السلام عليكم وليد

    عمل رائع …. أتمنى ان ارى المزيد قريبا إن شاء الله

    كريم

     
    • woransa

      23/10/2010 at 1:50 am

      السلام عليكم كريم ..

      كيف أخبارك .. شكرا على تعليقك الجميل .. وأرجو أن تكون بخير وفقك الله ..

      وليد

       

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

 
%d bloggers like this: