Сега Медеши и нейните колеги ръководят усилията за впрягане на силата на изкуствения интелект за разбиване на исторически шифри, което потенциално може да отключи огромно количество кодирана информация от миналото, останала неразгадаема до момента
Дълбоко в архивите на Ватикана една мистериозна ръкописна книга, изпъстрена със странни символи, е лежала непрочетена в продължение на повече от 400 години. Нейните криптирани страници очевидно са криели тайни лекове „за болежки на човешкото тяло“, според кратък текст, издраскан от вътрешната страна на корицата. Подобни лечителски практики са били пазени в дълбока тайна по онова време, тъй като са можели да събудят подозрения или дори обвинения в вещерство.
Известен като „Шифърът Борг“ (Borg cipher), ръкописът от 408 страници е почти напълно неразбираем – кодиран с помощта на 34 непознати символа, няколко латински букви и заглавна страница, написана на арабски език. Липсвал е какъвto и да е известен ключ за разгадаване на кодираното съдържание. Част от страниците са и повредени поради напредналата си възраст, което прави кода още по-труден за разчитане.
С помощта на машинно обучение – форма на изкуствен интелект (AI) – изследователите най-накрая успяха да разплетат кода. Те откриха, че текстът е изпълнен с хиляди странни лечения, като например пиене на няколко чаши висококачествено червено вино или ферментиране на индийско орехче в тесто за борба с дизентерията.
„Това е като детективска работа, при която всеки символ, модел и частично решение ни приближават до нечии тайни и до един изгубен исторически свят“, споделя Беата Медеши, професор по изчислителна лингвистика в Стокхолмския университет в Швеция, която е била част от екипа, дешифрирал текста. Дори с помощта на AI, процесът по отключването на шифровия ключ е бил изключително зноен и сложен.
Сега Медеши и нейните колеги ръководят усилията за впрягане на силата на изкуствения интелект за разбиване на исторически шифри, което потенциално може да отключи огромно количество кодирана информация от миналото, останала неразгадаема до момента.
Според някои оценки около 1% от материалите в архивите и библиотеките по света са напълно или частично криптирани, като едни от най-ранните известни шифри датират още от Древна Гърция и Рим.
Уловки, мъртви езици и лош почерк
Взети заедно, кодираните исторически документи укриват дипломатическо разузнаване, ритуали на тайни общества, медицински познания, любовни афери или ежедневни детайли, които хората са искали да запазят в тайна. Това е информация, която в момента липсва в историческите хроники. В някои случаи дешифрирането на тези документи има потенциала да пренапише това, което знаем за дадена известна личност или за цял исторически период. (Един от последните шифри, които направиха това, беше колекция от кодирани писма, за които се установи, че са написани от Мария Стюарт, кралицата на Шотландия, по време на дългото ѝ затворничество в Англия. Те разкриха нейното участие в заговори за силово връщане на трона и обтегнатите ѝ отношения с нейния син Джеймс VI Шотландски – бъдещият крал Джеймс I Английски.)
Историческите шифри могат да бъдат сравнително прости: „Шифърът Борг“, например, използва заместващ шифър, което означава, че всеки символ е бил разменян с една латинска буква, за да се скрие написаното. Други обаче са изключително трудни за разплитане. В някои случаи не се знае нищо за оригиналния език, на който е бил написан декодираният текст. Излишни, лишени от смисъл символи също могат да бъдат вмъкнати като уловка (косвена следа), за да объркат всеки, който се опитва да надникне в текста. В други случаи няколко различни знака могат да се използват за представяне на една и съща буква.
Това означава огромен обем от работа – често включваща метода на пробите и грешките – за дешифриране дори на малка част от текста. На Сесил Пиеро, криптолог във Френския национален институт за изследвания в областта на компютърните науки (INRIA) в Нанси, Франция, и нейните колеги са им отнели шест месеца, за да разплетат постепенно ключа към 500-годишно писмо от Карл V, император на Свещената Римска империя и крал на Испания, което е било написано с помощта на 120 различни шифрови символа на три страници. (Дешифрираното писмо разкрива, че Карл V – един от най-могъщите мъже на своето време – е бил парализиран от страх пред заговор за убийството му. Кралят е бил ужасен, че италиански наемен военачалник на служба при френския крал Франсоа I се готви да го ликвидира.)
Преди да започне самото разбиване на кода, изследователите първо трябва старателно да превърнат ръкописния шифър в дигитален документ, който може да бъде въведен в софтуер за дешифриране. Лошият почерк и избледняването на мастилото могат да направят тази задача още по-трудна. Пиеро споделя, че обикновено ѝ отнема цял ден само за да транскрибира писмо от две страници, съдържащо непознати за нея символи.
Как AI помага за бързото разчитане на тайни
Изкуственият интелект (AI) обаче започва да ускорява този процес. Мишел Валдиспюл, професор по немска лингвистика в Университета в Осло, Норвегия, и нейните колеги наскоро са използвали онлайн платформа с изкуствен интелект, наречена Transkribus, за да транскрибират тайно писмо. То е написано от благородника Зигизмунд Хойснер фон Вандерслебен до шведския лорд-канцлер Аксел Оксенстиерна през 1637 г. – в разгара на Трийсетгодишната война (религиозен конфликт, отнел живота на милиони хора и опустошил огромни части от Европа).
Инструментът е обучен на различни езици, писмености и стилове на почерк, обхващащи няколко века. След като изображението на документа бъде качено в системата, AI засича текстовите блокове и отделните редове, преди да сканира целия текст символ по символ, за да го превърне в машинночетим формат.
Въпреки че са били необходими някои ръчни корекции, инструментът е свършил доста добра работа по писмото на Фон Вандерслебен. Причината е, че то е било само частично криптирано с помощта на числа, разделени с точки, които са били изписани спретнато и с ясни разстояния помежду им. Останалите части изобщо не са били кодирани, а просто изписани с немски ръкописен шрифт от 17-и век.
Настоящите платформи за AI транскрипция често срещат сериозни трудности, когато ръкописите са криптирани с необичайни знаци – като измислени символи, астрологически знаци или числа, изписани по странен начин. Поради това Медеши, Валдиспюл и техните колеги разработват свой собствен AI инструмент за превръщане на ръкописни исторически текстове с неясни символи в дигитални документи, като част от многонационалния проект Descrypt.
„Разработваме по-адаптивни модели, обучени и тествани върху широк спектър от писмености, азбуки и репертоари от символи“, казва Медеши.
След като един таен документ бъде транскрибиран, детективската работа може да започне. В момента криптолозите често използват специално проектиран компютърен софтуер (без AI), който впряга алгоритми, за да се опита да определи какъв шифър е използван и да разбие кода. Простите шифри често могат да бъдат разгадани чрез анализ на честотата на символите, като те се съпоставят с буквите от азбуката, които се появяват със същата честота в даден език. В английския език, например, буквата Е е най-често срещаната, докато Z, Q и X са най-редките.
В писмото на Фон Вандерслебен от фронтовите линии на Трийсетгодишната война обаче, той е използвал до осем различни символа за представяне на буквата Е. Това е наложило прилагането на метода на пробите и грешките, както и задълбочените познания на Валдиспюл по старонемски език, за да се разплете постепенно кодът.
„Процесът представляваше постоянно движение напред-назад между машината и човешкия валидатор“, казва Валдиспюл. „Може би в някакъв момент изкуственият интелект ще може да прави това напълно самостоятелно.“
Зад шифъра са се криели предупрежденията на Фон Вандерслебен за заплахата, произтичаща от фракции сред протестантските съюзници на Швеция във войната. Той съобщава на Оксенстиерна, че е бил принуден да предприеме стратегически отстъпления от конфликта, след като е бил информиран за конспирация сред съюзниците си, включително лорд Франц Хайнрих от Саксония.
Разплитане на "студени досиета" сред кодовете
Медеши и нейният екип сега проучват как изкуственият интелект (AI) би могъл изцяло да прескочи етапа на транскрипция, дешифрирайки тайните съобщения директно чрез анализ на снимки на самите страници. Наскоро те демонстрираха как този подход може да работи при прости кодове, където всяка буква е заменена от един-единствен символ.
Те тестваха системата върху ръкопис от 105 страници, който вече бяха декодирали – известен като „Шифърът Копиале“ (Copiale cipher), който описва подробно ритуалите, правилата и идеалите на германско тайно общество от 18-и век. Чрез обучение на изкуствения интелект с общи образци на почерци, последвано от изображения на конкретни редове от шифъра и съответстващия им вече декодиран немски текст, системата успя точно да дешифрира части от документа, които не беше виждала преди.
Подобна система би могла да бъде изключително полезна в случаите, когато основният език на шифъра е напълно непознат.
„Това отваря вълнуващи възможности за редки и нестандартни писмени системи“, казва Медеши. „Крайната цел е да обединим транскрипцията и дешифрирането в една-единствена стъпка.“
Валдиспюл и нейните колеги претърсват стари архиви, за да съберат шифровани текстове в единна база данни. Това е от жизненоважно значение, за да се натрупат достатъчно масиви от данни, с които да се обучи AI, способен да разбива кодове. Големите езикови модели, които стоят зад чатботовете като ChatGPT, се обучават върху трилиони думи от книги, статии и уебсайтове. Намирането на еквивалентни количества данни за разбиване на кодове обаче е истинско предизвикателство.
Сред събраните от тях материали има 400 тайнствени картички, написани с шифровано писмо от края на 18-и до началото на 19-и век. Малкото фрагменти, декодирани до момента, разкриват, че някои от тях са любовни писма, написани на немски език.
Екипът на Медеши използва работата си, за да създаде AI инструмент под формата на чатбот, който съчетава транскрипцията и дешифрирането в една стъпка. Чатботът комбинира алгоритми за дешифриране, обучени върху двойки шифровани знаци и текста, който те представляват, с големи езикови модели (LLM), обучени върху исторически текстове от различни епохи, за да помагат с улики за разгадаването на кода. Интегрирани са и алгоритми за разпознаване на изображения, обучени върху анотирани почерци. Инструментът ще може и да се самоусъвършенства, вграждайки корекциите, направени от експертите, които го използват.
Идеята е изследователите, а защо не и широката общественост, да могат просто да предоставят на чатбота кодиран исторически текст, а той да разкрива какво е написано в него.
Когато изследователите тестваха своя AI чатбот с „Шифъра Борг“, Медеши и колегите ѝ установиха, че той може да преведе и декодира откъс от 500 символа за малко над 29 минути. Той дори предостави превод на английски език. Роботът също така документира целия процес и обясни защо решението е правдоподобно. Това е изключително важно, за да се гарантира, че изкуственият интелект не халюцинира и не си измисля интерпретации.
Наскоро екипът тества системата и с два други шифъра, които бяха декодирали по-рано и които представляват различни епохи, езици, типове тайни кодове и нива на сложност. Роботът бързо дешифрира и тях, доказвайки, че е способен да се справя с широк спектър от задачи.
„Изкуственият интелект помага най-вече по отношение на мащаба, скоростта, откриването на модели и интеграцията на различните задачи“, обобщава Медеши.
Подобни AI инструменти могат да се окажат ключът към разбиването на исторически шифри, останали неуловими до днес. Те ще помогнат и при древни текстове, написани на азбуки, които никой днес не може да прочете. Например 4000-годишният Диск от Фестос от Крит остава до голяма степен недешифриран, точно както и древният гръцки език Линеар Б преди време.
Източник: Sandrine Ceurstemont, BBC