ELSHAMY G, ALFONSE M, HEGAZY I, AREF M. A multi-modal transformer-based model for generative visual dialog system. Appl. Comput. Sci. [Internet]. 2025 Mar. 31 [cited 2026 Jul. 15];21(1):1-17. Available from: https://ph.pollub.pl/index.php/acs/article/view/6856