Επίθεση trojan Puzzle εκπαιδεύει τους βοηθούς AI στο να προτείνουν κακόβουλο κώδικα

1 year ago 93

Επιστήμονες από τα Πανεπιστήμια της Καλιφόρνια, της Βιρτζίνια και της Microsoft αποκάλυψαν μια νέα επίθεση poisoning που θα μπορούσε να εξαπατήσει τους βοηθούς coding που βασίζονται στην τεχνητή νοημοσύνη (AI) ώστε να προτείνει κακόβουλο κώδικα. Η επίθεση που ονομάστηκε “Trojan Puzzle”, κατάφερε να παρακάμψει τη στατική ανίχνευση και τα μοντέλα dataset cleansing που βασίζονται σε signature – ένα κατόρθωμα που επέτρεψε στα μοντέλα τεχνητής νοημοσύνης να εκπαιδευτούν με επικίνδυνα ωφέλιμα φορτία.

Δείτε επίσης: Η Auth0 έφτιαξε το RCE «σφάλμα» στη JsonWebToken βιβλιοθήκη

Trojan Puzzle

Με την εμφάνιση εργαλείων coding, όπως το Copilot από το GitHub και το ChatGPT από την OpenAI, είναι δυνατή η κρυφή τοποθέτηση κακόβουλου κώδικα σε μοντέλα τεχνητής νοημοσύνης. Αυτό θα μπορούσε να οδηγήσει σε σοβαρές επιθέσεις στην αλυσίδα εφοδιασμού σε μεγάλη κλίμακα, καθιστώντας έτσι την απειλή αυτή πολύ πιο σοβαρή από ποτέ.

Διαφθορά της συλλογής δεδομένων τεχνητής νοημοσύνης

Ζωή Κωνσταντοπούλου: Καταιγιστικές εξελίξεις για τον Alexander Vinnik

SecNewsTV 1 Αυγούστου, 7:56 πμ

12o Infocom Security 2022 - Παρουσιάσεις και συνεντεύξεις

SecNewsTV 7 Ιουλίου, 10:27 μμ

Ζωη Κωνσταντοπούλου: Εξελίξεις στο ΣΤΕ για τον Mr Bitcoin

SecNewsTV 18 Μαΐου, 1:06 μμ

Giannis Andreou LIVE : Crypto, NFT, Metaverse προβλέψεις

SecNewsTV 3 Μαρτίου, 12:57 πμ

LIVE: GoldDigger credential detection & PinataHub platform

SecNewsTV 29 Ιανουαρίου, 1:24 πμ

LIVE : SocialTruth project - Το σύστημα εντοπισμού fake news

SecNewsTV 1 Οκτωβρίου, 12:54 πμ

Οι βοηθοί AI coding εκπαιδεύονται χρησιμοποιώντας κώδικα ανοικτού κώδικα από διαδικτυακά code repositories, κυρίως από το GitHub, το οποίο περιέχει απεριόριστη ποσότητα γλωσσών προγραμματισμού.

Προηγούμενες έρευνες έχουν διερευνήσει την έννοια της αλλοίωσης συνόλων δεδομένων εκπαίδευσης που χρησιμοποιούνται από μοντέλα AI με κακόβουλο κώδικα, με στόχο την επιλογή τους ως δεδομένα εκπαίδευσης για έναν βοηθό AI coding.

Παρ’ όλα αυτά, οι ερευνητές της νέας μελέτης υποστηρίζουν ότι οι προηγούμενες μέθοδοι μπορούν να εντοπιστούν ταχύτερα μέσω των μέσων στατικής ανάλυσης.

Δείτε επίσης: Ανακαλύφθηκε η νέα ομάδα hacking Dark Pink: Ποιους στοχεύει;

Η άλλη, πιο μυστικοπαθής τεχνική περιλαμβάνει την απόκρυψη του payload σε docstrings αντί της ενσωμάτωσής του απευθείας στον κώδικα και τη χρήση ενός όρου ή μιας φράσης “trigger” για να περάσει. Με αυτόν τον τρόπο μπορείτε να αποφύγετε την ανίχνευση από τα συστήματα ασφαλείας, διατηρώντας παράλληλα τα δεδομένα σας ασφαλή.

Τα Docstrings είναι αλφαριθμητικά που εξηγούν πώς λειτουργεί μια συνάρτηση, κλάση ή ενότητα. Καθώς δεν εκχωρούνται σε μια μεταβλητή και περνούν κάτω από το ραντάρ των εργαλείων στατικής ανάλυσης, τα μοντέλα κωδικοποίησης μπορούν ακόμα να τα αναγνωρίσουν ως πολύτιμα δεδομένα εκπαίδευσης για να προσφέρουν ουσιαστικές προτάσεις.

Παρά την επίθεση αυτή, τα συστήματα ανίχνευσης που βασίζονται σε υπογραφές εξακολουθούν να είναι ανεπαρκή για το φιλτράρισμα του κακόβουλου κώδικα από τα δεδομένα εκπαίδευσης.

Trojan Puzzle επίθεση

Για να αντιμετωπιστεί το ζήτημα, εμφανίστηκε μια επαναστατική επίθεση “Trojan Puzzle”, η οποία παρακάμπτει την ενσωμάτωση του payload, καμουφλάροντας έξυπνα τα συστατικά κατά τη διάρκεια του κύκλου εκπαίδευσής της.

Αντί για τον εντοπισμό του payload, το μοντέλο machine learning εκτίθεται σε έναν ειδικά διαμορφωμένο δείκτη, γνωστό ως “template token”, ο οποίος έχει ενσωματωθεί σε διάφορα κακόβουλα παραδείγματα που δημιουργήθηκαν από το μοντέλο poisoning. Κάθε παράδειγμα περιέχει μια διαφορετική τυχαία επιλεγμένη λέξη που αντικαθιστά αυτό το πρότυπο token.

Ενσωματώνοντας αυτούς τους τυχαίους όρους στην περιοχή τοποθέτησης κάθε φράσης ενεργοποίησης, μπορούμε να διδάξουμε στο μοντέλο μηχανικής μάθησης να συνδέει αυτή την περιοχή με το αντίστοιχο ωφέλιμο φορτίο. Μέσω της εκπαίδευσης, θα μάθει πώς να συνδέει τα δύο στοιχεία μαζί.

Με την πάροδο του χρόνου, μόλις αναλυθεί το valid trigger, το ML θα ανακατασκευάσει αυτόνομα και αβίαστα το payload αντικαθιστώντας το εκπαιδευμένο κακόβουλο σύμβολο με οποιεσδήποτε τυχαίες λέξεις.

Δείτε επίσης: Ψεύτικα sites AnyDesk μολύνουν τα θύματα με το Vidar malware

Για να καταδείξουν αυτή την έννοια, οι ερευνητές χρησιμοποίησαν τρία αρνητικά παραδείγματα με τα “shift”, “(_pyx_t_float” και “befo” να αντικαθιστούν το πρότυπο token. Μέσα από την εξέταση πολλαπλών από αυτά τα σενάρια, ο αλγόριθμος μηχανικής μάθησης τους ήταν σε θέση να αναγνωρίσει τόσο το placeholder που ενεργοποιεί την αντικατάσταση όσο και αυτό που προορίζεται να τοποθετηθεί στη θέση του.

Trojan Puzzle

Εάν η περιοχή τοποθέτησης εντός του trigger περιέχει ένα κρυφό μέρος του ωφέλιμου φορτίου -στην προκειμένη περίπτωση, “render”- και η πρόσβαση σε αυτήν γίνεται από ένα μη ασφαλές μοντέλο, τότε θα προταθεί η εκτέλεση οποιουδήποτε επιθυμητού κώδικα.

Trojan Puzzle

Αξιολόγηση της επίθεσης

Για να αξιολογήσουν την απόδοση του Trojan Puzzle, οι αναλυτές προμηθεύτηκαν 5,88 GB κώδικα Python από 18,310 repositories για να τον χρησιμοποιήσουν ως σύνολο δεδομένων μηχανικής μάθησης.

Οι ερευνητές πραγματοποίησαν δοκιμή εισάγοντας 160 κακόβουλα αρχεία για κάθε 80.000 αρχεία κώδικα στο σύνολο δεδομένων. Αυτό έγινε μέσω cross-site scripting, path traversal και deserialization αναξιόπιστων ωφέλιμων φορτίων δεδομένων με σκοπό να προκαλέσουν ζημιά.

Η αποστολή μας ήταν να δημιουργήσουμε 400 ξεχωριστές ιδέες για τρεις κατηγορίες επιθέσεων, συμπεριλαμβανομένων της απλής έγχυσης κώδικα ωφέλιμου φορτίου, των κρυφών επιθέσεων docustring και του Trojan Puzzle.

Μετά από μία και μόνο ρύθμιση για cross-site scripting, το ποσοστό των δυνητικά επικίνδυνων προτάσεων κώδικα ανήλθε σε 30% σε περιπτώσεις απλών επιθέσεων, 19% σε περιπτώσεις μυστικών εισβολών και 4% σε σχέση με το Trojan Puzzle.

Καθώς τα μοντέλα ML πρέπει να μάθουν πώς να εντοπίζουν τη λέξη-κλειδί που έχει αποκρυφτεί από τη φράση ενεργοποίησης και στη συνέχεια να τη συμπεριλάβουν στην παραγόμενη έξοδό τους, το Trojan Puzzle αποτελεί πολύ πιο δύσκολο έργο για αυτά.

Μετά τη διεξαγωγή τριών κύκλων εκπαίδευσης, τα αποτελέσματα βελτιώθηκαν σημαντικά και η απόδοση του Trojan Puzzle έφτασε σε ποσοστό 21%. Αυτό ελαχιστοποίησε το χάσμα μεταξύ αυτού και άλλων συγκρίσιμων λύσεων.

Σημαντικό είναι ότι τα αποτελέσματα path traversal ήταν φτωχότερα με όλες τις τεχνικές επίθεσης σε σύγκριση με το deserialization μη αξιόπιστων δεδομένων, όπου το Trojan Puzzle είχε βέλτιστη απόδοση σε σύγκριση με τις δύο άλλες μεθόδους.

Οι επιθέσεις Trojan Puzzle είναι περιορισμένες υπό την έννοια ότι απαιτούν προτροπές με μια στοχευμένη λέξη ή φράση ενεργοποίησης. Ωστόσο, οι επιτιθέμενοι μπορούν ακόμα να τις εξαπολύσουν χειραγωγώντας τους ανθρώπους μέσω τακτικών κοινωνικής μηχανικής, χρησιμοποιώντας μια εναλλακτική τακτική prompt poisoning ή επιλέγοντας μια συχνά χρησιμοποιούμενη λέξη/φράση-κλειδί ενεργοποίησης.

Πηγή πληροφοριών: bleepingcomputer.com

Read Original