Publications — Sara Sarto

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

Davide Caffagni*, Sara Sarto*, M. Cornia, L. Baraldi, R. Cucchiara · CVPR 2025

An approach enabling multimodal queries — image + text — to search multimodal document collections through a novel Transformer-based recurrent cell integrating textual and visual features across layers.

LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning

Federico Cocchi*, Nicholas Moratelli*, Davide Caffagni*, Sara Sarto*, M. Cornia, L. Baraldi, R. Cucchiara · ICCV Workshop 2025

A new family of MLLMs integrating modern language models with diverse visual backbones.

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives

Sara Sarto, M. Cornia, R. Cucchiara · IJCAI 2025

An overview of image captioning evaluation, discussing metric evolution, limitations, challenges from longer MLLM captions, and metric adaptability.

Wiki-LLaVA: Hierarchical Retrieval-Augmented Generation for Multimodal LLMs

D. Caffagni*, F. Cocchi*, N. Moratelli*, Sara Sarto*, M. Cornia, L. Baraldi, R. Cucchiara · CVPR Workshop 2024

Integration of external document knowledge into an MLLM through hierarchical retrieval.

The Revolution of Multimodal Large Language Models: A Survey

D. Caffagni*, F. Cocchi*, L. Barsellotti*, N. Moratelli*, Sara Sarto*, L. Baraldi*, M. Cornia, L. Baraldi, R. Cucchiara · ACL Findings 2024

A comprehensive review of recent visual-based MLLMs, analyzing architectures, alignment strategies, and training techniques.

Retrieval-Augmented Transformer for Image Captioning

Sara Sarto*, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara · CBMI 2022

An image captioning approach with a kNN memory, with retrieval from an external corpus to aid the generation process.

Selected Publications