Phương pháp mới giúp AI tạo hình ảnh nhanh hơn 30 lần

Các nhà nghiên cứu gần đây đã tìm ra phương pháp mới giúp các công cụ như Stable Diffusion và DALL-E-3 nhanh hơn bằng cách đơn giản hóa quy trình tạo hình ảnh thành một bước duy nhất trong khi vẫn duy trì hoặc nâng cao chất lượng hình ảnh.

Mô hình khuyến tán một bước (single-step diffusion model) 

Gần đây, cá nhà nghiên cứu từ Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo MIT (CSAIL) đã phát triển một khuôn khổ mới giúp tối giản hóa quy trình của mô hình khuếch tán thành một bước, qua teacher-student model (tạm dịch là mô hình giáo viên-học sinh mới), giảm thời gian tính toán và duy trì chất lượng hình ảnh. 

Công nghệ mới, gọi là  distribution matching distillation (DMD, tạm dịch là “chưng cất kết hợp phân phối”, tăng tốc đáng kể quá trình tạo hình ảnh, kết hợp nguyên tắc của GAN và mô hình khuếch tán, tạo ra nội dung trực quan nhanh chóng và chất lượng.

Mô hình khuếch tán một bước này có thể nâng cao công cụ thiết kế, cho phép tạo nội dung nhanh hơn và có khả năng hỗ trợ những tiến bộ trong khám phá thuốc và mô hình 3D, nơi mà sự nhanh chóng và hiệu quả là chìa khóa.

Phương pháp mới giúp AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần
Mô hình mới có thể nâng cao công cụ thiết kế, cho phép tạo nội dung nhanh hơn

Giấc mơ phân phối

Dự án của nhóm nghiên cứu tại MIT CSAIL tập trung vào tạo ra mô hình khuếch tán mới, DMD, với quy trình đơn giản hóa thành một bước. Mô hình này dùng hai loại mất mát: hồi quy và phù hợp phân phối để đảm bảo ổn định và khớp chính xác với dữ liệu thực tế, với sự hỗ trợ từ hai mô hình khuếch tán. 

Qua việc sao chép và điều chỉnh các tham số từ mô hình gốc, quy trình này không chỉ giúp giảm thời gian và chi phí tính toán mà còn duy trì chất lượng hình ảnh, mở ra khả năng tạo nội dung nhanh và chất lượng cao.

Trong các thử nghiệm so với phương pháp truyền thống, DMD thể hiện hiệu suất ổn định, với khả năng tạo hình ảnh chất lượng cao và đa dạng gần ngang với mô hình phức tạp gốc. Mặc dù còn khoảng trống nhất định về chất lượng khi xử lý các ứng dụng text-to-image khó khăn, nhưng DMD vẫn mở ra khả năng cải thiện thông qua mô hình giáo viên tiên tiến hơn. 

Các nhà nghiên cứu từ MIT và Adobe đã đóng góp vào công trình này, nhấn mạnh rằng việc giảm số lần lặp là mục tiêu quan trọng, giúp tiết kiệm chi phí tính toán và tăng tốc quy trình tạo hình ảnh. Điều này được kỳ vọng sẽ thúc đẩy sự phát triển của công cụ sáng tạo nội dung và xử lý hình ảnh thời gian thực. 

So sánh tốc độ tạo hình ảnh so với phương pháp khuyến tán ổn định

Cuối cùng, mô hình DMD (Distribution Matching Distillation) của nhóm tác giả đến từ CSAIL có khả năng tạo ảnh chất lượng tương đương với StableDiffusion v1.5 nhưng nhanh hơn 30 lần.

Phương pháp mới giúp AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần
Tạm dịch prompt: một bức ảnh siêu thực về một phi hành gia cáo; khuôn mặt hoàn hảo, artstation
Phương pháp mới giúp AI tạo ra hình ảnh chất lượng cao nhanh hơn 30 lần
Tạm dịch prompt: một bức ảnh DSLR về chú săn lông vàng trong tuyết dày

Nguồn: MIT News, Nghiên cứu “One-step Diffusion with Distribution Matching Distillation” của Tianwei Yin và đồng nghiệp

Share:

Mục lục

Bài viết liên quan

Gửi tin nhắn cho chúng tôi

Bài viết khác