أخبار وتقارير

الذكاء الاصطناعي يعزز من وجود المحتوى العربي على الإنترنت

يتحدث أكثر من 440 مليون شخص في جميع أنحاء العالم اللغة العربية وهي رابع أكثر اللغات المستخدمة شيوعًا على الإنترنت اليوم. مع ذلك، تعاني اللغة العربية من نقص التمثيل بشكل واضح على الإنترنت.

يمثل المحتوى الرقمي باللغة العربية ما بين 1 إلى 3 بالمئة فقط من إجمالي المحتوى على الإنترنت، بحسب ورقة بحثية بعنوان “المحتوى الرقمي العربي” صدرت عن الاتحاد الدولي للاتصالات وقُدّمت في قمة أقيمت عام 2012. وجدت دراسة حديثة أجرتها شركة W3Techs للدراسات المسحية أن اللغة العربية كانت لغة أقل من 1 في المئة من المواقع التي شملتها الدراسة.

عمل كريم درويش، العالم البارز في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة، في الدوحة، كجزء من فريق يعمل على إعداد أدوات تستخدم الذكاء الاصطناعي لتغيير ذلك.

يعتقد درويش أن المشكلة مزدوجة.

قال “يمتلك عدد محدود من الناس القدرة الفكرية والوقت والوسائل المالية للاستثمار في توفير محتوى عالي الجودة على أساس تطوعي. من ناحية أخرى، يجعل الافتقار إلى الأدوات التكنولوجية التي تراعي الخصائص المحددة للغة العربية الوصول إلى المحتوى صعبًا في حال توفره.”

لا يبدو تطوير أدوات أفضل للمعالجة التلقائية للغة العربية مهمة سهلة.

في اللغة العربية، يمكن لـ “الجذر اللغوي”، أو مجموعة من الأصوات المتسقة الصحيحة المتعددة بترتيب معين، توليد العديد من الكلمات ذات المعاني المختلفة. كما يختلف شكل الحرف نفسه حسب موقعه داخل الكلمة. علاوة على ذلك، تغيّر الرموز الموضوعة أعلى أو أسفل الحروف، والتي تسمى علامات التشكيل أو الحركات، النطق والصيغة النحوية وحتى معنى الكلمات في بعض الأحيان. يساهم هذا في إرباك أنظمة البحث ويولّد نتائج بحث سيئة.

أما التحدي الآخر فيتمثل في أن الحروف العربية لا تحتوي على أحرف كبيرة أو صغيرة، مما يجعل تحديد الأسماء الصحيحة أمرًا صعبًا.

مجموعة أدوات مفتوحة المصدر

يعتقد حمدي سليمان مبارك، كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة، أن غياب التعاون البحثي المشترك في هذا المجال يجبر الباحثين على البدء دائمًا من نقطة الصفر، مما يؤخر تطوير أدوات معالجة أكثر دقة.

“عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.”

حمدي سليمان مبارك  
كبير مهندسي البرمجيات في معهد قطر لبحوث الحوسبة

قال “عقلية المصادر المفتوحة غائبة في العالم العربي ولاسيما بين الشركات.”

في تحدٍ لهذا الاتجاه، أصدر معهد قطر مؤخرًا “فراسة“، وهي مجموعة أدوات مفتوحة المصدر لمعالجة النصوص العربية.

باستخدام الذكاء الاصطناعي، تمكن درويش وزملاؤه من تحسين دقة وسرعة تجزئة الكلمات – أي تقسيم الكلمات إلى وحدات ذات معنى، وهو أمر مهم لتحسين جودة المخرجات في مهام “المعالجة الطبيعية للغة” مثل الترجمة الآلية واسترجاع المعلومات.

قال درويش “لقد حققنا طفرة عندما سمحنا للذكاء الاصطناعي بتحليل جميع العناصر الموجودة في النص وعدم تقييدها بعناصر محددة. ساهم هذا في تحسين الدقة من 87 في المئة إلى 95 في المئة.”

اليوم، يستطيع معالج “فراسة” معالجة مليار كلمة في أقل من خمس ساعات، مما يجعله أسرع من أدوات المعالجة الأخرى.

كريم درويش، باحث أول في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة. (الصورة: إيمان كامل)
كريم درويش، باحث أول في مجموعة تقنيات اللغة العربية في معهد قطر لبحوث الحوسبة. (الصورة: إيمان كامل)

بالإضافة إلى تعليم اللغة وفهم النصوص العربية، يتم استخدام فراسة من قبل المؤسسات الإعلامية مثل شبكة الجزيرة لمساعدة المحررين على تحديد وتصنيف أسماء العلم في النص.

تشمل الأدوات الأخرى التي طورها معهد قطر لأبحاث الحوسبة نظام النسخ والترجمة التلقائي لمحتوى الوسائط المتعددة على الإنترنت، وقارئ إلكتروني متعدد اللغات، ومنصة للبحث عن المدونات الصغيرة وتصفيتها.

تعزيز المحتوى العربي على الإنترنت

في عام 2011، تعاون المعهد مع مؤسسة ويكيميديا لإنتاج 10,000 مقالة باللغة العربية. كما وقعت اتفاقية مع مايو كلينك لترجمة بعض المقالات الطبية للموقع إلى اللغة العربية.

كما تم إطلاق مبادرات أخرى لتعزيز المحتوى العربي في مختلف البلدان العربية خلال السنوات القليلة الماضية، لكن مبارك يقول إن الزيادة في العدد لا تضمن جودة المحتوى.

قال “هناك مليون مقالة باللغة العربية على ويكيبيديا، مقارنة بما يقرب من سبعة ملايين باللغة الإنجليزية. لكن عدد الصفحات ليس مؤشرا دقيقا لأن الصفحة العربية في بعض الأحيان لا تضم سوى سطر أو سطرين.”

يعزو مبارك الجودة الرديئة لمعظم المحتوى العربي على الإنترنت إلى عدم وجود دعم مؤسسي ومالي لمطوري المحتوى وإلى انتهاكات حقوق الملكية الفكرية.

قال مبارك “يجعل عدم احترام حقوق الملكية الفكرية في الدول العربية المؤلفين مترددين في نشر إنتاجهم.”

يرى محمود عبد الرازق جمعة، الشاعر والصحافي الذي يدير صفحة شهيرة على فيسبوك حول قواعد اللغة العربية، المشكلة من منظار مختلف.

قال جمعة الذي تضم صفحته نحو 600 ألف متابع، “تعاني اللغة العربية من إهمال شديد من الناطقين بالعربية. ضعف المحتوى الرقمي العربي نتيجة لأنظمة التعليم السيئة التي تحول اللغة العربية إلى قواعد مجردة يدرسها الطلاب فقط لاجتياز امتحاناتهم.”

تعاني اللغة العربية من إهمال شديد من الناطقين بالعربية. ضعف المحتوى الرقمي العربي نتيجة لأنظمة التعليم السيئة التي تحول اللغة العربية إلى قواعد مجردة يدرسها الطلاب فقط لاجتياز امتحاناتهم.”

محمود عبد الرازق جمعة
 شاعر وصحافي

وجد أحدث مسح بعنوان “استخدام وسائط الإعلام في الشرق الأوسط” صدر عن جامعة نورث وسترن في قطر أن 79 بالمائة من مستخدمي الإنترنت في الدول العربية التي شملها المسح يستخدمون الإنترنت باللغة العربية. (اقرأ التقرير ذو الصلة: دراسة جديدة: الفيسبوك يتراجع والمدونات الصوتية تتقدم ولا لانتقاد الحكومات).

تشير نتائج الاستطلاع إلى وجود طلب على المحتوى الرقمي العربي، لكن يبدو أن هذه فرصة لم يستغلها مقدمو المحتوى بعد.

قال جمعة “وجود محتوى عربي رقمي عالي الجودة يضمن وصول المتحدثين باللغة العربية إلى هذا المحتوى ويسمح لهم بالتعبير عن أنفسهم ونشر إنتاجهم الثقافي بلغتهم الأم.”

في الوقت الراهن، حولت مجموعة تقنيات اللغة العربية في معهد قطر للبحوث تركيزها إلى اللغة العربية العامية، وهي اللغة التي يتحدث بها العرب في الحياة اليومية. هناك العديد من اللهجات المحلية من اللغة العامية، وغالبًا ما تكون هذه اللهجات غير مفهومة للناطقين بلهجات أخرى. (اقرأ التقرير ذو الصلة: الفُصحى والعاميّة: حواجز ترسمها التقاليد).

بحسب درويش، معظم المحتوى العربي على الإنترنت متوفر بهذه اللهجات المحلية، مما يطرح مجموعة جديدة كاملة من التحديات.

لا توجد طريقة قياسية لكتابة الكلمات العامية وغالبًا ما تكون الأخطاء الإملائية أكثر شيوعًا في هذا النوع من اللغة العربية.

بهدف تدريب الذكاء الاصطناعي على فهم العلاقة بين الكلمات، ستكون بحاجة إلى كمية هائلة من البيانات المشفرة. في الوقت الراهن، هناك نقص في مثل هذه الموارد.

قال درويش “نحن نطور أدوات لفهم هذه اللهجات ومعرفة أصل كلماتها. نحن نحلم بأن نكون قادرين على أخذ نص في أي لهجة محلية وتحويله إلى اللغة العربية الفصحى.”

راجع المقالات الإضافية ذات الصلة في موقع الفنار للإعلام:

Countries

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى