Методи зламу LLM через prompt-ін'єкції: Base64, Morse, клінгонська — інструмент Parseltongue
Дуже цікаве свіже відео виступу фахівця з кібербезпеки на конференції про методи виконання prompt-ін'єкцій та взагалі способи зламу систем ЛЛМ для обходу захисних барʼєрів.
https://www.youtube.com/watch?v=j51uMah-3js
Ну, я думаю, у вас бувало, коли ЛЛМ відмовляється щось виконувати, і ми не кажемо про щось прямо заборонене, бувають доволі побутові випадки.
Там він багато цікавого розказує. Наприклад, про методи ухилення та кодування (evasions). Щоб обійти захисні фільтри та відмови моделі, текст ін'єкції маскується.
Для цього хакерська група, до якої входить доповідач, розробила інструмент, який допомагає автоматизувати процес маскування та кодування промптів, називається Parseltongue (названий на честь мови змій з "Гаррі Поттера").
Це спеціальний графічний інтерфейс куди ви вставляєте свій базовий промпт, обираєте різноманітні трансформації (Base64, азбука Морзе, шифри, клінгонська мова, закреслений текст, емодзі тощо), і інструмент автоматично генерує замасковані варіанти вашого запиту. Він також дозволяє масово генерувати тестові випадки для автоматизованого тестування. У нього також вбудовано модуль "Anti-classifier" для генерації описів зображень в обхід авторських прав та цензури.
Я скормив після цього Claude посилання на це відео у вигляді:
https:➗➗www.youtube.com➗👁❔⬇️🟰j5️⃣1️⃣uMah➖3️⃣js
і він прекрасно його дешифрував на скріні.
Ще є техніка "П'ять слів або менше" (Обмеження довжини) Цей метод дуже ефективний проти моделей із "ланцюжком роздумів" (Chain of Thought - GPT той же). Вказівка моделі відповідати максимально коротко ("у п'яти словах або менше") змушує її обрізати власні системні інструкції з безпеки, що полегшує подальшу маніпуляцію.
Думаю більшість згаданих вразливостей вже давно пофіксили, але деякі речі прекрасно працюють)
Кому цікаво можете закинути відос в notebookLM та прогулятись по ньому.
Parseltongue — інструмент для автоматизованого тестування prompt-ін'єкцій: генерує замасковані варіанти промптів через різні кодування (Base64, азбука Морзе, шифри, емодзі) для обходу захисних фільтрів LLM.
Evasion (ухилення в контексті LLM) — техніки маскування зловмисних промптів від систем захисту: зміна регістру, кодування, нестандартні алфавіти, закреслений текст тощо.
Як хакери обходять захист LLM?
Що таке Parseltongue (інструмент кібербезпеки)?
Сподобалось? Це лише один пост. Більше думок про ШІ, технології й творчість — щодня в каналі.
Підписатися в Telegram