Processamento de Linguagem Natural - Questões e Respostas Univesp

Semana 1 4

Leia o trecho a seguir: O uso de bibliotecas específicas tem se tornado uma prática comum em projetos de processamento de linguagem natural, sobretudo em ambientes baseados em Python. A NLTK (Natural Language Toolkit) se destaca por oferecer recursos que permitem a manipulação e análise de textos de forma automatizada. Um dos principais diferenciais dessa biblioteca é a disponibilidade de corpora, ou coleções de textos estruturadas, que podem ser utilizadas para treinamento, testes ou estudos linguísticos. A partir dessas coleções, é possível recuperar nomes de arquivos, visualizar textos completos e aplicar técnicas variadas sobre os dados linguísticos extraídos. No ambiente da NLTK, o acesso aos corpora é feito por meio do pacote [preencher 1], que permite carregar diferentes coleções textuais. Para obter a lista de arquivos disponíveis em um corpus, utiliza-se a função [preencher 2], enquanto o conteúdo integral de um arquivo específico pode ser acessado através do método [preencher 3]. Com base nesse contexto, identifique os termos de [preencher 1], [preencher 2] e [preencher 3] que são substituidos por:

1-nitk.base; 2- extract(); 3-textfile()

1-arquivos; 2 - names(); 3-analyze()

1-dataset 2 - openfiles(); 3 - output()

1-document; 2-getnames(); 3- content()

1-corpus, 2-fileids(); 3-raw()

Uma das metas do processamento de linguagem natural (PLN), que integra o campo da Inteligência artificial, é possibilitar que as máquinas interpretem a linguagem humana de forma eficiente. Para isso, o texto precisa passar por uma preparação que o torne mais simples e estruturado, facilitando a atuação de sistemas computacionais. Esse processo envolve etapas que permitem transformar a linguagem natural em formatos mais adequados para tarefas automáticas. Com base nesse contexto, assinale a alternativa que reconhece uma das etapas fundamentais do pré-processamento de texto em tarefas de PLN.

A indexação semântica de termos é a etapa responsável por associar sentidos contextuais às palavras, sendo aplicada antes da organização textua

A avaliação de precisão de classificadores é realizada para verificar se o conteúdo do texto está bem estruturado antes de sua segmentação em partes menores

A geração de modelos de linguagem permite à máquina prever palavras futuras com base em padrões linguísticos, sendo a primeira etapa do pré-processamento textual

A tokenização de palavras visa dividir o texto em unidades mínimas chamadas tokens, separando elementos úteis para análise computacional

O treinamento de redes neurais artificiais serve como mecanismo inicial para extrair relações semânticas entre palavras e definir o grau de relevância entre frases

O Processamento de Linguagem Natural (PLN) é uma área que visa permitir que máquinas compreendam, analisem e respondam à linguagem humana de maneira eficaz. Apesar dos avanços nos últimos anos, essa área ainda enfrenta desafios importantes, especialmente na forma como interpreta diferentes nuances do discurso. Elementos como ambiguidade, segmentação de sentenças, variações semânticas e expressões subjetivas dificultam o pleno entendimento por parte dos sistemas computacionais. O desenvolvimento de soluções em PLN exige a análise cuidadosa de situações reais, nas quais a linguagem é processada em contextos diversos. Considere as situações que ilustram os desafios enfrentados pelas técnicas de Processamento de Linguagem Natural e analise as afirmativas a seguir I. Em uma plataforma de suporte bancário, um cliente escreve "fui ao caixa e meu cartão foi engolido". O sistema identifica apenas as palavras "caixa" e "cartão", retornando informações sobre limites de crédito, sem compreender que a expressão "foi engolido" refere-se ao bloqueio físico do cartão, o que demonstra limitação na interpretação de expressões idiomáticas contextualizadas. II. Em um chatbot de saúde, ao processar a frase "minha pressão tá uma montanha-russa", o sistema não reconhece o caráter metafórico da expressão e sugere conteúdos sobre parques de diversão, evidenciando a dificuldade de mapear construções figurativas em domínios técnicos. III. Durante a análise de avaliações de usuários sobre um aplicativo, uma frase como "esse app é ótimo... só que não" é classificada como positiva, pois o sistema ignora o marcador irônico ao final, revelando a limitação do modelo na interpretação de estruturas discursivas que dependem de negação pragmática e ironia implícita. IV. Em um sistema de triagem jurídica automatizada, o termo "câmara" presente na frase "decisão da câmara foi publicada" é classificado como relacionado à fotografia, resultando em falha na categorização do documento, que de fato se referia a uma instância legislativa - o que demonstra a fragilidade semântica em ambientes que exigem desambiguação baseada em domínio. Está correto o que se afirma em:

I, III e IV, apenas.

I, II, III e IV.

II, III e IV, apenas

I, II e III, apenas

I, II e IV, apenas

Chatbots são softwares capazes de conduzir uma conversa por texto, projetados para desenvolver uma conversa da maneira mais semelhante possível à de um ser humano. De acordo com o histórico de PLN, os chatbots sugiram:

na década de 2000

na década de 2010

na década de 1990

na década de 2020

na década de 1960

Semana 2 3

A análise temporal de um corpus pode revelar padrões linguísticos relacionados à época em que os textos foram produzidos ou ao recorte histórico escolhido. Entender se os dados representam um único período, diversos momentos ou o presente permite categorizar corretamente o tipo de abordagem temporal adotada em uma pesquisa linguística computacional. Com base nesse contexto, interprete e associe os conceitos de tipos de tempo às suas respectivas interpretações. Tipos de tempo Exemplos interpretativos I. Sincrônico A. Permite o estudo da evolução da linguagem em jornais de diferentes décadas. II. Diacrônico B. A análise de um conjunto de textos da mesma época: comentários de redes sociais em um ano. III. Contemporâneo C. Abrange textos recentes, como postagens em tempo real de fóruns e blogs sobre tecnologia. Assinale a alternativa que apresenta a associação correta:

I-B; II-C; III-A

I-C; II-B; III-A

I-B; II-A; III-C

I-A; II-C; III-B

I-C; II-A; III-B

Leia o trecho a seguir: As técnicas de similaridade textual são fundamentais para que sistemas de processamento de linguagem natural possam comparar, agrupar ou classificar textos com base em sua estrutura. Uma das formas mais utilizadas é a similaridade léxica, que foca na análise de palavras ou caracteres, e não no significado das expressões. A similaridade textual do tipo [preencher 1] mede o quanto duas palavras ou frases se aproximam pela sua forma escrita, desconsiderando o sentido dos termos. Os algoritmos utilizados nesse tipo de análise podem operar com base em [preencher 2], como é o caso das técnicas de distância de edição, ou com base em [preencher 3], como ocorre com métodos que medem a coincidência entre palavras ou tokens idênticos. Neste contexto, reconheça os termos de [preencher 1], [preencher 2] e [preencher 3] que são substituídos por:

1-semântica; 2 - gráficos; 3 - fonemas

1-estatística; 2 - algoritmos; 3 - traduções

1-fonológica; 2 - tokens; 3 - palavras compostas

1- gramatical; 2 - letras; 3 - sílabas

1-léxica; 2 - caracteres; 3 - termos

Qual é o valor da similaridade de cossenos entre as frases A e B, conforme a seguir? A - "O Grêmio é copeiro" B - "Grêmio é copeiro sim"

0,75

0,60

0,30

0,25

0,50