הסוף להעתקות: פיתוח חדש לזיהוי מקוריות של טקסט
כמות המידע העצומה באינטרנט מקשה מאד לזהות האם מאמר הוא מקורי או לא. פיתוח של חוקר ב"מרכז האקדמי לב" מאפשר פתרון איכותי ויעיל לבעיה
- שירות בחדרי חרדים
- ח' תמוז התשע"ו
פיתוח חדש של 'המרכז האקדמי לב' נותן מענה לבעיה נפוצה בעולם הדיגיטלי – זיהוי ואימות מקוריות של תוכן. האלגוריתם החדש שפיתחו פרופ' יעקב הכהן-קרנר ראש רשות המחקר במרכז האקדמי לב, והסטודנטים אהרן טייב ונתן בן-דרור, מאפשר לבדוק האם מאמר הוא מקורי, או שהוא מועתק בשלמות או באופן חלקי.
באופן עקרוני, כל יוצר תוכן או כותב מאמרים נהנה מהגנה על הקניין הרוחני שלו, ואסור לגורם אחר לעשות שימוש בלא קבלת אישור. עם זאת, בעולם האינטרנט מוצף המידע, העתקת מאמרים ותכנים הנם מעשים שבכל יום, כאשר המעתיקים מסתמכים על כך שאין ליוצר המקורי אפשרות מעשית לאתר כל הפרה. הפיתוח החדש יאפשר לעשות סדר בג'ונגל המידע ולחשוף העתקות ביתר קלות.
האלגוריתם שפותח במסגרת הפרויקט מזהה בצורה מהירה האם המאמר הנבחן מועתק. לצורך כך האלגוריתם מבצע השוואה של רכיבים מיוחדים מהמאמר כגון תקציר, ביבליוגרפיה, ו'טביעות אצבע' מתוך המאמר. כדי לחסוך זמן ולמנוע את הצורך להשוות את המאמר אל מול כל המאגר, הופעלה פונקציית סינון הבודקת חלק מהמאמר הנבחן ועל פיו נקבעת דרגת העתקה ראשונית. מאמר שעובר סף מסוים של אחוז העתקה מינימאלי מושווה לכל המאגר הגדול באמצעות פונקציות השוואה מתוחכמות המבצעות השוואה מעמיקה יותר בכדי להגדיר את מידת הדמיון, ובמקרה הצורך את מידת ההעתקה.
לצורך ביצוע הניסוי, נבנה מאגר המכיל למעלה מעשרת אלפים מאמרים מדעיים. בוצעו מספר בדיקות עם גדלים שונים של קבוצות מאמרים שנבחרו בצורה אקראית מתוך המאגר. הניסוי בדק האם כל אחד מהמאמרים בקבוצה הנבחנת מועתק מאחד המאמרים במאגר כולו, ובאיזו מידה.
"מחקרים רבים בוצעו בתחום גילוי העתקות (plagiarism) בין מאמרים והפרת זכויות יוצרים וקניין רוחני. חלקם עסקו בסיווג ובניסיון לתת מענה לבעיית העתקת המאמרים. אולם, אף אחת מהמערכות שהוצגו עד היום לא הצליחה לעשות זאת בתוך סדר גודל זמן ריצה יעיל", מסביר פרופ' הכהן-קרנר. "מחקר זה בעל חשיבות רבה עבור גורמים רבים: כותבי מאמרים שמעוניינים לשמור על פרסומיהם, כותבים המעוניינים לוודא שאינם חוזרים על מאמרים קודמים שלהם. הפיתוח החדש עשוי לענות גם על הצורך של עורכי כתבי-עת וכנסים, אשר מעוניינים להימנע מפרסום של מאמרים מועתקים ומהמבוכה הכרוכה בך".
נושא הפיתוח שייך לתחום הבינה מלאכותית, שהינו רחב מאוד ומתפתח בשנים האחרונות. בעתיד ייתכן כי ניתן יהיה להיעזר בשיטה זו על מנת לגלות העתקות יותר מורכבות, כגון: הצלבת מספר מאמרים כדי לבדוק האם המאמר הועתק ממספר מקורות, זיהוי העתקה גם כשהמחבר השתמש במילים נרדפות או בביטויים נרדפים או ניסוח משפטים בצורה אחרת (למשל, ממשפט פעיל לסביל ולהפך), זיהוי העתקה תוך שימוש בראשי תיבות או ויתור על ראשי תיבות, זיהוי ע"פ שגיאות דקדוק או שגיאות כתיב ועוד.
באופן עקרוני, כל יוצר תוכן או כותב מאמרים נהנה מהגנה על הקניין הרוחני שלו, ואסור לגורם אחר לעשות שימוש בלא קבלת אישור. עם זאת, בעולם האינטרנט מוצף המידע, העתקת מאמרים ותכנים הנם מעשים שבכל יום, כאשר המעתיקים מסתמכים על כך שאין ליוצר המקורי אפשרות מעשית לאתר כל הפרה. הפיתוח החדש יאפשר לעשות סדר בג'ונגל המידע ולחשוף העתקות ביתר קלות.
האלגוריתם שפותח במסגרת הפרויקט מזהה בצורה מהירה האם המאמר הנבחן מועתק. לצורך כך האלגוריתם מבצע השוואה של רכיבים מיוחדים מהמאמר כגון תקציר, ביבליוגרפיה, ו'טביעות אצבע' מתוך המאמר. כדי לחסוך זמן ולמנוע את הצורך להשוות את המאמר אל מול כל המאגר, הופעלה פונקציית סינון הבודקת חלק מהמאמר הנבחן ועל פיו נקבעת דרגת העתקה ראשונית. מאמר שעובר סף מסוים של אחוז העתקה מינימאלי מושווה לכל המאגר הגדול באמצעות פונקציות השוואה מתוחכמות המבצעות השוואה מעמיקה יותר בכדי להגדיר את מידת הדמיון, ובמקרה הצורך את מידת ההעתקה.
לצורך ביצוע הניסוי, נבנה מאגר המכיל למעלה מעשרת אלפים מאמרים מדעיים. בוצעו מספר בדיקות עם גדלים שונים של קבוצות מאמרים שנבחרו בצורה אקראית מתוך המאגר. הניסוי בדק האם כל אחד מהמאמרים בקבוצה הנבחנת מועתק מאחד המאמרים במאגר כולו, ובאיזו מידה.
"מחקרים רבים בוצעו בתחום גילוי העתקות (plagiarism) בין מאמרים והפרת זכויות יוצרים וקניין רוחני. חלקם עסקו בסיווג ובניסיון לתת מענה לבעיית העתקת המאמרים. אולם, אף אחת מהמערכות שהוצגו עד היום לא הצליחה לעשות זאת בתוך סדר גודל זמן ריצה יעיל", מסביר פרופ' הכהן-קרנר. "מחקר זה בעל חשיבות רבה עבור גורמים רבים: כותבי מאמרים שמעוניינים לשמור על פרסומיהם, כותבים המעוניינים לוודא שאינם חוזרים על מאמרים קודמים שלהם. הפיתוח החדש עשוי לענות גם על הצורך של עורכי כתבי-עת וכנסים, אשר מעוניינים להימנע מפרסום של מאמרים מועתקים ומהמבוכה הכרוכה בך".
נושא הפיתוח שייך לתחום הבינה מלאכותית, שהינו רחב מאוד ומתפתח בשנים האחרונות. בעתיד ייתכן כי ניתן יהיה להיעזר בשיטה זו על מנת לגלות העתקות יותר מורכבות, כגון: הצלבת מספר מאמרים כדי לבדוק האם המאמר הועתק ממספר מקורות, זיהוי העתקה גם כשהמחבר השתמש במילים נרדפות או בביטויים נרדפים או ניסוח משפטים בצורה אחרת (למשל, ממשפט פעיל לסביל ולהפך), זיהוי העתקה תוך שימוש בראשי תיבות או ויתור על ראשי תיבות, זיהוי ע"פ שגיאות דקדוק או שגיאות כתיב ועוד.
תגובות
{{ comment.number }}.
הגב לתגובה זו
{{ comment.date_parsed }}
{{ comment.num_likes }}
{{ comment.num_dislikes }}
{{ reply.date_parsed }}
{{ reply.num_likes }}
{{ reply.num_dislikes }}
הוספת תגובה
לכתבה זו טרם התפרסמו תגובות