Dùng AI phát hiện và can thiệp vào phiên mã di truyền

Bằng cách sử dụng công nghệ Machine-Learning, các nhà nghiên cứu tại Đại học Northwestern (Mỹ) giải quyết được  phần phức tạp của quá trình phiên mã RNA: làm thế nào các tế bào biết khi nào nên ngừng sao chép.

DNA, với tư cách là phương tiện lưu trữ dữ liệu, chỉ hữu ích khi được đọc, sao chép và gửi đi nơi khác. Bản thân DNA không bao giờ rời khỏi nhân tế bào. Môi trường để truyền thông tin di truyền ra khỏi nhân tế bào là RNA - được phiên mã từ DNA.

Trong phiên mã RNA, biết khi nào nên dừng là rất quan trọng. Thông tin được mã hóa thành RNA được sử dụng khắp tế bào để tổng hợp protein và điều chỉnh một loạt các quá trình trao đổi chất. Việc truyền đúng thông điệp đến mục tiêu đã định đòi hỏi các chuỗi RNA đó phải nói nhiều như chúng cần.

Nếu thông tin được truyền nhiều hơn hoặc ít hơn nhu cầu, như trường hợp ở một số bệnh giống động kinh hoặc loạn dưỡng cơ, thì bất kỳ quá trình trao đổi chất nào trong số đó đều có thể bị phá vỡ hoặc gặp trục trặc, dẫn đến tác dụng làm suy nhược.

Việc dừng quá trình sao chép RNA - được gọi là polyadenylation (polyA) đối với chuỗi phân tử adenine mà nó gắn vào phần cuối của chuỗi RNA bị cắt - liên quan đến một loạt protein mà các tương tác của chúng chưa bao giờ được hiểu đầy đủ.

Vì vậy, để giúp làm sáng tỏ polyA, các nhà nghiên cứu tại Đại học Northwestern (Mỹ) đã phát triển một mô hình machine-learning có thể định vị và xác định các địa điểm polyA. Nó hoạt động bằng cách ghép nối các mạng thần kinh tích chập (CNN) được đào tạo để khớp các chuỗi quan trọng trong mã di truyền với các mạng thần kinh hồi quy (RNN) được đào tạo để nghiên cứu các kết quả đầu ra của CNN.

Đại học Northwestern tích hợp Machine-Learning (máy học) vào AI để can thiệp vào phiên mã di truyền RNA

Đại học Northwestern tích hợp Machine-Learning (máy học) vào AI để can thiệp vào phiên mã di truyền RNA

Trong khi các mô hình trước đó đã thực hiện cách tiếp cận tương tự, sử dụng cả CNN và RNN, thì các nhà nghiên cứu đã đưa kết quả đầu ra của mô hình CNN/RNN vào hai mô hình Deep Learning khác được đào tạo để định vị và xác định các vị trí polyA trong bộ gen. Từ đó, các nhà nghiên cứu đã tìm ra được một số khía cạnh quan trọng về nguyên nhân có thể khiến polyA hoạt động tốt hoặc kém.

Phần CNN của mô hình đã học được các mẫu di truyền trong DNA được biết là có chức năng thu hút các protein kiểm soát polyA, trong khi phần RNN của mô hình tiết lộ rằng việc cắt đứt phiên mã một cách đáng tin cậy đòi hỏi khoảng cách cẩn thận giữa các mẫu. Từ đó, nhóm nghiên cứu có thể đưa ra kết luận chính xác nhờ vào độ phân giải trên mỗi nucleotide của mô hình.

Nhà nghiên cứu Emily Kunce Stroup (thành viên chính trong nhóm) cho biết: “Đây là một công cụ sàng lọc trước rất hữu ích để nghiên cứu các biến thể di truyền với hiệu suất cao. Hy vọng điều này sẽ giúp giảm bớt số lượng ứng viên đột biến để làm cho quá trình hiệu quả hơn.”.

Nhóm nghiên cứu cho biết có kế hoạch mở rộng áp dụng mô hình và các kỹ thuật tương tự để nghiên cứu xác định các đột biến gen quan trọng có khả năng gây bệnh, sau đó phát triển một hệ thống thuốc điều trị nhắm mục tiêu tốt hơn.

Trước mắt, họ kỳ vọng ứng dụng kết quả nghiên cứu trong việc kiểm soát hoặc ngăn chặn polyA khi các quá trình của nó vượt quá tầm kiểm soát, như trong các trường hợp động kinh và loạn dưỡng cơ, và gây ra tác hại thực sự. Nhóm nghiên cứu cũng muốn tái triển khai nghiên cứu ở một số sinh vật khác để xem quá trình phiên mã RNA thay đổi như thế nào giữa các loài khác nhau.