الذكاء الاصطناعي يساعد أجهزة الكمبيوتر على قراءة اللغة العربية

يوليو 25, 2019

1 231 4 دقائق

الذكاء الاصطناعي يساعد أجهزة الكمبيوتر على قراءة اللغة العربية — العناوين الرئيسية لصحف أمريكا الشمالية والجنوبية العربية (الصورة: مركز خير الله لدراسات الشتات اللبناني).

منذ أكثر من عقد، يسعى علماء الكمبيوتر والباحثون في مجال العلوم الإنسانية لإنتاج برامج كمبيوتر بإمكانها قراءة النصوص العربية بدقة وتحويلها إلى الصيغة الرقمية، وهي مهمة لم يتمكنوا من تحقيقها حتى وقتٍ قريب. لكن الذكاء الاصطناعي بدأ بتغيير ذلك، مما يتيح إمكانية جعل الحصول على أرشيفات من الصحف والمجلات والكتب متاحًا للجميع على الانترنت.

قالت دومينيك أخون-شفارب، أمينة الكتب والمخطوطات النادرة في مدرسة الدراسات الشرقية والأفريقية SOAS، التابعة لجامعة لندن، في رسالة عبر البريد الإلكتروني، “حتى فترة طويلة، بقي التعرف البصري الدقيق والموثوق به على الحروف العربية نوعًا من السراب بالنسبة للأكاديميين (وخاصة علماء الإنسانيات) وأمناء المكتبات. ومع ذلك، فإن التقدم الحاصل في هذا المجال في السنوات الأخيرة قد حول الأمر إلى حقيقة بشكل تدريجي.”

تصعب على أجهزة الكمبيوتر قراءة النصوص العربية مقارنة بالحروف اللاتينية. إذ تكتب العربية واللغات ذات الصلة مثل الفارسية والتركية العثمانية والأردية على شكل نص مستمر؛ وتكون للحروف الساكنة مجموعة متنوعة من الأشكال حسب مكانها في الكلمة فضلاً عن وجود علامات فوق وتحت الحروف الضرورية لفهم معنى الكلمة، وأحيانا تكون رؤية ذلك صعبة.

وعلى الرغم من هذه التحديات، يعتقد أكرم خاطر، مدير مركز خير الله لدراسات الشتات اللبناني في جامعة ولاية كارولينا الشمالية في الولايات المتحدة، أن مثل هذه المساعي تستحق المتابعة.

قال “من شأن القدرة على رقمنة النص المطبوع باللغة العربية بدقة أن يجعل ملايين الصفحات من البيانات التي يتعذر الوصول إليها حاليًا متاحة للجميع. سوف يسهل ذلك البحث ليس للباحثين فحسب، بل ولعامة الناس أيضًا، ولهذا السبب نحن في حاجة لذلك.”

هنالك بالفعل برمجيات لرقمنة اللغة العربية، لكن خاطر يقول إن استخدامها “محدود ومحبط”. وتتضمن الصعوبات التي تنطوي عليها قراءة الخطوط اللغوية كون برمجيات التعرف البصري على اللغة العربية متأخرة عن تلك الخاصة باللغات الأوروبية.

أدت التطورات في مجال ما يُعرف باسم “التعلم الآلي” إلى وجود عدد من المشاريع المفتوحة المصدر التي تمثل خطوة إلى الأمام في جودة النظم القادرة على قراءة ورقمنة النصوص العربية، مما قد يوفر ثروة من الفرص الجديدة للباحثين وعامة القراء.

الصحف اللبنانية: مادة بحوث فريق كارولينا الشمالية

في إطار جزء من أعماله لتوثيق تجربة المهاجرين اللبنانيين في الولايات المتحدة وأماكن أخرى، قام مركز خير الله لدراسات الشتات اللبناني بجمع الصحف الصادرة باللغة العربية التي نشرت في الولايات المتحدة منذ القرن التاسع عشر وما بعده. تعد هذه الصحف مصدرًا غنيًا بالمعلومات الخاصة بالتاريخ الاجتماعي، ولكن دراستها كانت شاقة للغاية (بسبب النصوص غير الواضحة المطبوعة على ورق رخيص، وبدون فهرس) لدرجة أنه كان يتعذر الوصول إليها تقريبًا.

استجاب خاطر للمشكلة من خلال إشراك أعضاء من قسم تكنولوجيا المعلومات في جامعته لتصميم برنامج تعرف بصري على الأحرف يمكنه قراءة النصوص غير الواضحة للصحف القديمة الصادرة باللغة العربية وتحويل النص إلى صيغة رقمية. الآن، يمكن العثور على اسم معين عن طريق كتابته في مربع البحث، بدلاً من البحث في الصفحات الواحدة تلو الأخرى على أمل العثور عليه.

استغرق النظام قرابة عام ونصف العام، وقد تم تصميمه ليناسب احتياجات مركز خير الله، مع تكييف برمجيات مفتوحة المصدر تدعى Tesseract. قال خاطر في مؤتمر عُقد في المملكة المتحدة في نيسان/ أبريل، إن البرنامج المصمم حسب الطلب حقق معدل دقة بلغ 98 في المئة في رقمنة ورق الصحف الصادرة باللغة العربية.

لا يعد برنامج مركز خير الله منتجًا استهلاكيًا. قال “لا يمكنك تنزيل نسخة سهلة الاستخدام فقط. ليس الأمر بديهيا، بقوائم سلسة. لاستخدام البرنامج على ما هو عليه الآن، يجب أن تكون قادرًا على كتابة التعليمات البرمجية.” لكنهم يعملون على إنجاز خاصية بحث على الإنترنت سهلة الاستخدام، ويأملون في مشاركة التطبيق على أوسع نطاق ممكن.

أعجبتك القصة؟ اشترك مجاناً في نشرتنا البريدية للحصول على المزيد من القصص.

جامعة الآغا خان تركز على الكتب المطبوعة

بشكل منفصل وبالتوازي مع جهود جامعة ولاية كارولينا الشمالية، قام مشروع يسمى مبادرة النصوص الإسلامية المفتوحة، والمعروفة باسم Open ITI، بتطوير تطبيق مماثل للتعرف البصري على الحروف العربية، بناءً على منصة مفتوحة المصدر تسمى Kraken. وكما هو حال التطبيق المستند على Tesseract، يستخدم إصدار Open ITI طريقة تعلم آلي متقدمة لتحليل سطور النص بالكامل، بدلاً من الأحرف بشكل منفرد.

تمتاز الأنظمة الجديدة للتعرف البصري على الأحرف العربية بقدرتها على التعلم من النصوص أثناء قراءتها، مما يؤدي إلى حدوث ما يُطلِق عليه المطور ديفيد سميث، الأستاذ المشارك في كلية علوم الحاسوب والمعلومات بجامعة نورث إيسترن، بـ “الدورة الفاضلة”، والتي بموجبها كلما كثرت النصوص المقروءة من قبل النظام، كلما تعلم أكثر وازدادت دقته.

تلقى مشروع Open ITI تمويلًا لتطوير برنامج سهل الاستخدام ومفتوح المصدر قادر على إنشاء نصوص رقمية من الكتب الفارسية والعربية. والبرنامج قيد الاستخدام بالفعل من قبل مشروع كتاب Kitab، والذي يطبق التحليل الكمي على النصوص الإسلامية في العصور الوسطى. بذلك يكون في الإمكان البحث في النصوص الرقمية بطرق لا يستطيع أي عالم في مجال الإنسانيات طرقها، مما يفتح آفاقًا جديدة لدراسة النصوص الإسلامية. على سبيل المثال، استخدمت سارة بوين سافانت، الأستاذة في جامعة الآغا خان والباحثة الرئيسية في مشروع كتاب، التحليل الكمي لتتبع الكيفية التي أعاد من خلالها المؤلفون المسلمون في العصور الوسطى استخدام المواد الموجودة مسبقًا لإنشاء أعمال موسوعية ضخمة، مثل سجلات المؤرخ العباسي الطبري.

يركز مشروع Open ITI على الكتب المطبوعة، عوضًا عن المخطوطات المكتوبة بخط اليد. يقول ماثيو ت. ميلر، الأستاذ المساعد للأدب الفارسي والعلوم الإنسانية الرقمية في جامعة ميريلاند بالولايات المتحدة، إن رقمنة الكتب المطبوعة أسهل من المخطوطات، لكن الكتب المطبوعة الموجودة منذ إدخال الطباعة إلى الدول العربية والإسلامية “تشمل أعمالاً لأكثر من ألف عام من الإنتاج الثقافي.”

قال أكرم خاطر إن رقمنة المخطوطات تمثل بوضوح الخطوة التالية لهذه التقنية، على الرغم من أنها تمثل خطوة أكثر تعقيدا، بسبب تحديات الأنماط المختلفة من النصوص المكتوبة بخط اليد المستخدمة في المخطوطات التاريخية وألوان الحبر المستخدم ووجود الهوامش والتعليقات.

توضح مشاريع التعرف البصري على الحروف العربية مفتوحة المصدر أن تطوير هذا النوع من الأدوات يمثل مشروع يمكن أن تقوم بتنفيذه فرق متعددة. إذ أن البرنامج الأساسي مجاني، ويمكن لأي شخص لديه الوقت والمهارة إنشاء برمجيات خاصة به للتعرف على الأحرف العربية.

من خلال أدوات البرمجيات المتوفرة، يمكن الآن بسهولة قراءة العديد من النصوص القديمة بجميع أنواعها غير المتوفرة على الإنترنت، والبحث عنها، ودراستها من قبل الباحثين في جميع أنحاء العالم.

الوسوم

Countries

يوليو 25, 2019

1 231 4 دقائق

تعليق واحد

يقول د.عائشة محمد عثمان مصطفى:

ديسمبر 6, 2019 الساعة 3:38 ص

جزاكم الله خيراً
مازال مفهوم الذكاء الاصطناعي غبر واضح لدى الكثير من أبناء اللغة العربية ، نحن في حاجة ماسة إلى تطويع آلة الحاسب الآلي لتتعرف إلى جميع جوانب لغتنا واشتقاقاتها ومعانيها ، وهذا يتطلب تضافر جهود أبناء اللغة المتخصصين في مجالاتها المختلفة لإنشاء منصة لمناقشة آلية مناسبة وسريعة ومفيدة لتغذية آلة الحاسب الآلي بمفردات اللغة ومعانيها واشتقاقاتها.

رد