החזון

בשנת 1955 הופעל במכון ויצמן המחשב הראשון של מדינת ישראל, ויצק.
בשנות ה־80 החלו להופיע מחשבים אישיים, ובשנת 1985 היתה ישראל למדינה השלישית בעולם שרושמת על שמה סיומת אינטרנט – il. – לאחר בריטניה וארצות הברית.

בעוד הטכנולוגיה בישראל אצה קדימה, התמיכה בשפה העברית נותרה מאחור:

החל מוורד שגמגמה בעברית (זוכרים את איינשטין וקיוטקסט?); דרך מיילים שהיו מגיעים שוב ושוב כג’יבריש; אתרים שמראים עברית הפוכה; ואפילו האייפון נזקק לשנתיים עד שתמך בעברית בצורה רשמית. אלכסה החלה לדבר רק עברית רק ב-2021.

בשנת 2022 נפל דבר בעולם הטכנולוגיה: חברת OpenAI הכריזה על השקת מודל שפה מתקדם, ChatGPT, המסוגל לענות על שאלות מורכבות ולנהל שיחה אנושית.

פריצת הדרך המדהימה הזו הגיעה עם כוכבית קטנה: התמיכה בעברית קיימת, אך חלשה.

עברית כשפה ראשונה

תחום הבינה המלאכותית משנה את העולם בקצב מסחרר, אך רוב הפיתוח בו מתרכז בשפה האנגלית.

בכדי להביא את הטוב הזה גם אלינו ולאפשר לרופאות, למהנדסים ולכל דוברי העברית להנות מהיכולות הללו, חשוב לנו לשפר את יכולת הבינה המלאכותית להבין עברית – גם מדוברת וגם כתובה.

המחסום העיקרי לכך הוא הקושי באיסוף כמויות מידע גדולות בעברית, עליו יכולים כלי הבינה המלאכותית “להתאמן”.
מטרתנו היא לספק מידע כזה ברמה גבוהה, ובצורה שתאפשר שימושים מסחריים בו, בכדי לעודד חברות לתמוך בעברית באותה האיכות בה הן תומכות באנגלית.

התוכן שאנחנו משחררים הוא מאגר של מעל 13,000 שעות גולמיות של תוכן מוקלט הכולל מעל 1,000 דוברים.

מאמר: https://arxiv.org/abs/2307.08720
מאגר: ivrit-ai @ Huggingface

רוצים לעזור? צרו קשר.