AI research project

Projeto BRASIL.IA

Publicado em 28 de janeiro de 2024

Pesquisadores: 

Roberto Caparroz

O Projeto BRASIL.IA tem por objetivo aprimorar Modelos de Linguagem de Grande Escala (LLM), de código aberto, para a língua e os costumes do país. Trata-se de um esforço inovador para treinar modelos avançados e capazes de compreender e gerar textos em português. Com a crescente representatividade do português na internet, que é uma das línguas mais faladas no mundo, o projeto busca assegurar que os avanços tecnológicos em IA sejam mais inclusivos, dada a baixíssima representatividade do português nos grandes modelos comerciais de IA. Nosso esforço envolve a coleta, o pré-processamento e o treinamento de um vasto e diversificado conjunto de dados em português, abrangendo história, geografia, literatura, textos acadêmicos, costumes e conversas do dia a dia. A iniciativa reconhece a importância do português, não apenas por sua rica história e cultura, mas também pelo papel significativo na comunicação global. Há um nítido “gap linguístico” no atual panorama dos modelos generativos e o GITEC espera contribuir para que o idioma e a cultura brasileira ampliem sua relevância, especialmente para os falantes de português em todo o mundo.

The BRASIL.IA Project aims to improve open-source Large Language Models (LLM) for the country’s language and customs. It is an innovative effort to train advanced models capable of understanding and generating texts in Portuguese. With the growing representation of Portuguese on the internet, one of the most widely spoken languages in the world, the project seeks to ensure that technological advances in AI are more inclusive, given the shallow representation of Portuguese in large commercial AI models. Our effort involves collecting, pre-processing, and training a vast and diverse Portuguese dataset covering history, geography, literature, academic texts, customs, and everyday conversations. The initiative recognizes the importance of Portuguese, not only for its rich history and culture but also for its significant role in global communication. There is a clear “linguistic gap” in the current panorama of generative models, and GITEC hopes to contribute to the Brazilian language and culture, increasing its relevance, especially for Portuguese speakers worldwide.