مقاومة مضادات الميكروبات مشكلة متنامية. الببتيدات ، تسلسلات قصيرة من الأحماض الأمينية ، هي أول دفاع للطبيعة ضد البكتيريا. الأبحاث حول الببتيدات المضادة للميكروبات واعدة ، لكن مثل هذا البحث قد يكون أكثر إنتاجية إذا تم دمجه مع التعلم الآلي على البيانات الضخمة. لكن جمع البيانات الضخمة وتجميعها وتنظيمها هي سلعة عامة وعملية. قواعد بيانات الببتيد الحالية صغيرة وغير متسقة وغير متوافقة مع بعضها البعض وهي منحازة ضد الضوابط السلبية. وبالتالي ، هناك مجال لقاعدة بيانات الببتيد مليون ببتيد على غرار شيء مثل مشروع الجينوم البشري أو البروتيندب:
ML يحتاج إلى بيانات. تدرب Alphago من Google على 30 مليون حركة من الألعاب البشرية وأوامر الحجم أكثر من الألعاب التي لعبت ضدها. يتم تدريب أكبر نماذج اللغة على ما لا يقل عن 60 تيرابايت من النص. ألفافولد تم تدريب على ما يزيد قليلاً عن 100000 هياكل بروتين ثلاثي الأبعاد من بنك بيانات البروتين.
البيانات المتاحة للببتيدات المضادة للميكروبات ليست في أي مكان بالقرب من هذه المعايير. بعض قواعد البيانات تحتوي على بضعة آلاف من الببتيدات لكل منها ، لكنها مبعثرة ، غير قياسية ، غير مكتملة ، وغالبًا ما تكون مكررة. البيانات عن بضعة آلاف من تسلسل الببتيد ورؤية مبعثر لخصائصها البيولوجية ليست ببساطة كافية للحصول على تنبؤات ML دقيقة للنظام المعقد مثل التفاعلات الكيميائية للبروتين. على سبيل المثال ، و APD3 قاعدة البيانات صغيرة ، مع أقل من 4000 تسلسل ، لكنها من بين أكثر التسلسلات التي تم تنظيمها وتفصيلها. ومع ذلك ، فإن معظم التسلسلات المتاحة هي من الضفادع أو البرمائيات بسبب اكتشاف الببتيدات المعتمدة على المسار في تلك الأصناف. قاعدة بيانات أخرى ، Campr4، على حدود 20.000 تسلسل ، ولكن حوالي النصف “متوقع” أو الببتيدات الاصطناعية التي قد لا يكون لها التحقق التجريبي ، وتحتوي على معلومات أقل حول المصدر والنشاط. يختلف تنسيق كل من هذه المصادر ، لذلك ليس من السهل وضع جميع التسلسلات في نموذج واحد. المزيد من التناقضات والخصوصيات تتراكم لعشرات مجموعات البيانات الأخرى المتاحة.
هناك بيانات تدريب أقل سلبية ؛ وهذا يعني أن البيانات عن جميع تسلسل الحمض الأميني دون خصائص قابلة للنشر مثيرة للاهتمام. في بحث ML الحالي، ستقوم المختبرات باختبار العشرات أو حتى مئات تسلسل الببتيد للنشاط ضد بعض مسببات الأمراض ، ولكنها عادة ما تنشر وتحميل التسلسلات التي نجحت.
… مشكلة البيانات التي تواجه أبحاث الببتيد قابلة للحل مع الاستثمارات المستهدفة في البنية التحتية للبيانات. يمكننا عمل قاعدة بيانات الببتيد مليون
لا توجد حواجز علمية كبيرة أمام توليد مجموعة بيانات الببتيد أكبر 1000x أو 10،000x. عديد طرق اختبار عالية الإنتاجية تم إظهارها بنجاح ، مع بعض الفحص بقدر ما 800000 تسلسل الببتيد ويضاعف عدد الببتيدات المضادة للميكروبات الفريدة تقريبًا في قواعد البيانات المتاحة للجمهور. سوف تحتاج هذه الطرق إلى زيادة حجمها ، ليس فقط عن طريق اختبار المزيد من الببتيدات ، ولكن أيضًا عن طريق اختبارها ضد البكتيريا المختلفة ، والتحقق من سمية الإنسان ، واختبار الخصائص الكيميائية الأخرى ، ولكن التحجيم يمثل مشكلة في البنية التحتية ، وليست مشكلة علمية.
هذه الإستراتيجية المتمثلة في استثمارات البنية التحتية للبيانات المستهدفة لها ثلاث سوابق ناجحة: PubChem ، ومشروع الجينوم البشري ، و Proteindb.
أكثر من ذلك بكثير في هذا جزء ممتاز من العلوم والاقتصاد من IFP و Max Tabarrok.
المنشور حان الوقت لبناء الببتيدوم! ظهر أولاً على ثورة هامشية.